Тюнингуем CS Yazzle ч. 1
В связи с многочисленными вопросами о
- точности получения Google PR и защиты IP от бана;
- точности по числу бэклинков;
решил написать некоторые рекомендации.
1. Итак, для защиты от бана IP, в т. ч. при получении Google PR (с недавних пор Гугл банит IP на 1 день, если запускать несколько копий программы) рекомендуется использовать прокси-сервера… естественно, речь не о тех бесплатных и тормозящих прокси, которые имеются по умолчанию в списке. Речь идет о своих прокси, которые можно поднять на любом нормальном выделенном сервере (в т.ч. виртуальном). Не так давно, мы так для себя и сделали, подняв на своем VDS 5 IP-адресов и 5 SQUID’ов (естественно, доступ по паролю и логину). Затраты на все про все – дополнительные 250 рублей в месяц (за каждый дополнительный IP 50 руб / месяц). Вероятность бана после этого (особенно актуально при сборе PR) практически стала нулевой. Стоит заметить, что при желании и острой необходимости можно купить хоть 100 айпишников.
2. Не секрет, что точность по числу собранных бэклинков снизилась после закрытия в сентябре 2007-го года оператора «link» Яндексом. Для повышения точности рекомендуется попробовать платный XML-сервис по бэклинкам Webalta (по всем вопросам обращайтесь к партнеру Webalta – компании Seo-One.ru).
Потестировал – фигня полная, собирает ровно тоже, что и по остальным ПС собирается. Жаль, очень жаль. Индекс в 3 млрд Вебальте, видимо, все-таки не по зубам.
Естественно, чтобы его подключить к CS Yazzle требуется написать дополнительный файл «engine.ini» (см. документацию к программе). Если кто-то решит попробовать, я с радостью предоставлю этот файл (к слову, его у меня нет, но если предоставите формат или временный доступ, то напишу).
Скачать дополнительный файл для тех, кому интересно потестировать (нужно скопировать в папку engines/webalta) можно здесь (предварительно замените в нем строчки «user:pass» на Ваш «логин:пароль» в системе Seo-One).
Задумавшись о том, что писать в части №2, сформулировал вопрос для читателей: какие вопросы по CS Yazzle интересуют вас?



14 Май 2008 в 19:43
Напишите подробнее как поднять собственные прокси на своем сервере . Подробнее в техническом плане. С учетом того что люди этого никогда не далали, т.е. все по полочкам подробно разложите, если не сложно. (типа: покупаем ip у хостера, зливаем на ftp тото и тото… и т.д.)
14 Май 2008 в 21:21
Дмитрий, у нас выделенный сервер в компании Netangels. Там, например, решается очень просто – пишете в техподдержку – нужно столько-то айпи, на них нужно поднять столько-то proxy с доступом по паролю – через пару дней все готово. Я думаю, это самый удобный вариант. Хостинг можно подобрать по вкусу, лишь бы поддержка была достойная.
18 Июнь 2008 в 23:39
Николай, подскажите пожалуйста:
1. Как происходит ротация этих proxy на стороне клиента (т.е. в Yazzle). Он сам выбирает их случайным образом или требуются еще какие-то настройки?
2. На какой объем анализа беков хватает 5 ip? Другими словами – есть ли какие-то экспериментальные данные о том, сколько ip необходимо для определенного количества анализируемых сайтов? Например, анализируем 20 сайтов в сутки – надо 2 ip, анализируем 50 сайтов в сутки – 5 ip.
19 Июнь 2008 в 9:00
John,
1. Сам.
2. Если анализировать последовательно, не запуская несколько копий программы, то и без прокси можно обойтись. Прокси позволяют использовать несколько копий программы сразу без ухудшения качества анализа.
19 Июнь 2008 в 10:44
При работе с 5 проксями, получается запустить не более 5 копий одновременно, далее уже «глюки».
20 Июнь 2008 в 1:23
«Если анализировать последовательно, не запуская несколько копий программы, то и без прокси можно обойтись.»
Когда я составляю очередь сайтов (речь идет о запуске только одной копии программы), первые несколько штук анализируются нормально, а затем Google перестает отдавать PR (в столбце всегда 0). Через несколько часов все снова работает.
Мой второй вопрос сводился к тому, сколько IP надо брать? Вы говорите, что у Вас 5 штук и:
«Вероятность бана после этого (особенно актуально при сборе PR) практически стала нулевой.»
а какое при этом количество сайтов анализируется и за какой период времени (если я правильно понимаю, именно эти факторы влияют на бан в Google)?
21 Июнь 2008 в 22:15
John, зависит от объемов парсинга и компьютеров на 1 IP. У нас фактически используется на 3 компьютерах параллельно.
10 Февраль 2009 в 10:05
Николай, вопрос. А реально поднять Yazzle на виндовом сервере?
И если взять по 3 прокси, например, на одну копию Яззла, запустить 3 копии. Не сдохнет?
28 Февраль 2009 в 0:51
Амеро Бакс, не сдохнет, а вот скорость работы будет сильно зависеть от толщины инет-канала