Коротко обо всём
Персональный блог о самом разном. Ссылки на интересные статьи, цитаты из книг и фильмов.
rss twitter mail
Статистика блога

Записей: 7
Просмотров: 247502

Онлайн парсеры поисковиков

За долгое время работы в SEO, у меня накопилось немало опыта, в том числе программирования. У меня был выбор купить софт, который казалось бы был дешевым и выгодным, но я почти всегда писал скрипты сам.


Делюсь опытом в создании парсеров для различных поисковых систем.

Yandex

Важные GET переменные:

p - номер страницы

text - запрос (нужно использовать в скрипте функцию urlencode)

numdoc - количество результатов на страницу (я указывал 50)

lr - регион сайта (цифровое значение, которое можно взять по адресу http://search.yaca.yandex.ru/geo.c2n)

Капча выдается редко, её можно определить с помощью сервиса антикапчи. Не обновляйте кукисы при запуске скрипта


Google

Первоначально мне потребовалось очень много времени, чтобы обойти первую защиту Google - капчу. Эта капча была очень сложной, состояла из случайного набора английских букв различного цвета с наклоном. Сервис антикапчи ни разу не выдал правильного результата. Я обошел эту защиту, указывая адрес в адресе капчи не google.com, а google.ru, тем самым символы на капче заменились на цифры, которые было значительно легче "разгадать". Но тут меня ждал другой сюрприз - бан по IP адресу за большое количество запросов.

Чтобы обойти бан Google, я стал использовать proxy на сервере с помощью curl, ставля при этом небольшой таймайт между запросами. Одного прокси адреса хватает на 100 запросов, после чего он меняется. К счастью, для Google подходят любые прокси, даже невысокой анонимности.


Bing

Первоначальный парсер работал казалось бы вполне хорошо, до того как я понял что я могу получить только первые 20 страниц поиска. Следующие страницы почему - то не обрабатывались. Я пробовал указывать все пользовательские параметры через Curl, но результат оказался неизменным. Но в итоге у меня появилось абсолютно новое решение - использовать выдачу с Yahoo, результаты которого абсолютно схожи с Bing. Это решило проблему, у Yahoo не оказалось серьезных защит и результаты на 20 и других страницах прекрасно обрабатывались.


Была идея парсить все остальные поисковики - ask.com, rambler, но я отложил это на потом.


P.S. Я не выкладываю парсеры для того, чтобы их можно было скачать. Если уж кому то нужно, может обратиться ко мне на почту. Я бы не хотел, чтобы кто-то сильно злоупотреблял скриптами. Да и к тому же, даже если я выложу их на сайте, вероятнее они уже не будут работать к тому моменту как вы их скачаете - поисковики постоянно меняют защиту, структуру выдачи.


Комментарии

Комментариев нет, или они на модерации










Навигация

Главная страница

Избранные записи


Интересное


Счетчик

Website Security Test