Когда писал первую версию программы, я не думал, что Яндекс ввел защиту от частых обращений к статистике запросов wordstat в виде капчи. После определенного количества запросов – выскакивает капча и парсинг первой версией программы уже невозможен…
Некоторые люди, по отзывам о программе, слезно просили меня добавить возможность соединяться посредством прокси-сервера, но я по себе знаю, как геморно с этими проксями, им свойственно сдыхать очень быстро, а возиться с их заменой и прочими делами, не есть кул
Решил я упростить задачу, т.к. все гениальное просто. Ввел несколько новых фич в новой версии Анадыря.
1. возможность распознавания капчи яндекса посредством подключения к сервису анти-капча.ком
2. фильтрация кеев по стоп-словам
Принцип работы новой версии парсера таков:
1. Вы указываете api кей анти-капчи, указав также и галочку на использование его.
2. Когда программа определяет, что Вордстат заблокировал парсинг и выдал капчу, она (программа) скачивает картинку и посылает ее сервису, где «негры» уже расшифровывают ее руками. Анадырь ждет, пока «негр» отправит код. Когда код получен, программа продолжает парсинг.
На данном этапе у некоторых может возникнуть вопрос по поводу того, что, как известно, «негры» сервиса анти-капча имеют свойство вводить капчи как попало, поэтому логично предположить, что некоторую часть кеев можно похерить из-за неверного кода. На этот случай программа проверяет правильность ввода путем анализа ответа от сервиса вордстат. Поэтому не переживайте за целостность напарсенных кеев.
3. Далее уже анализируется полученная инфа и проверяется на предмет стоп-слов.
4. Вывод информации юзеру.
Я вроде достаточно долго тестировал версию и глюков не обнаружил пока что.. Если вы обнаружите, пишите в комменты или на мыло / icq.
з.ы. кажется яшка ввел в сервисе ограничение на количество выводимых кеев. дальше 20-й страницы кеи не выдаются =(
Файл:
Скачать “Анадырь 2.0″
Пароль: seotouareg.ru
Кому нужны инвайты на анти-капчу, велком в icq - 585774