Bite my shiny, metal ass! :-): поисковые системы

Показаны сообщения с ярлыком поисковые системы. Показать все сообщения

четверг, июля 05, 2007

Исследования контекстной рекламы в Рунете от Яндекса

Наткнулся на интересный документ - Исследование контекстной рекламы в Рунете на Яндексе. (Новость, Полный текст исследования).

Самое главное - пишут что рынок контекстной рекламы постоянно увеличивается, (в четверо за 2006 год), что неудивительно - и давно обогнал рынок баннерной рекламы. Хитро намекают, что якобы именно они придумали контекстную рекламу (В 2001 - появился Директ, а Гугл Адсенс и Бегун только в 2002). Незнаю так это или нет.

Интересно: 43 % всех кликов в Рунете проиходит в Москве. Там же и самая высокая средняя стоимость клика - в 2-2.5 раза больше. Получается что Москва приносит больше 70 % всех доходов! Сразу вспомнился анекдот, что за МКАД'ом в России жизни нет. Также, если верить документу - больше 50 % всего рынка принадлежит Яндексу - странно, вроде визуально сайтов с Директом не так много.

вторник, мая 29, 2007

Маскируем скрипт - прикидываемся браузером

В PHP есть супермощный класс CURL - который позволяет полностью эмулировать соединения с различными параметрами. С помощью небольшого тюнинга можно добиться, что наш скрипт будет неотличим от браузера управляемым человеком.

Зачем это нужно? Опыт показывает, что, например, поисковые системы - скрипту эмулирующему браузер перекрывают кислород намного позже.

Чем браузер отличается от скрипта? Он передаёт строку юзер-агента, сохраняет и отдаёт куки, передаёт сточку реферера (адрес страницы откуда пришли) - мы будем делать то же самое.

Простейший способ использования CURL:

$url = "http://www.site.com";
$ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$str = curl_exec($ch);
curl_close($ch);

Текст страницы оказывается в переменной $str - с ним потом можно делать всё что угодно.

Теперь тюнингуем наш простейший скрипт.

1. Добавляем сточку юзер-агента

$user_agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)";
curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);

Строчку юзер-агента можно вставить любого популярного браузера. Это - для Microsoft Outlook 6.0. Также браузер часто передаёт версию ОС и некоторые параметры - например тут версию .NET.

2. Если вызываем несколько страниц на сайте, сохраняем и отдаём куки

$cookie_file = " ..тут вставляем путь к файлу ..";
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);

Многие сервисы "отсеивают" скрипты - устанавливая, а затем запрашивая переменную в куки. Путь к куки файлу должен быть полный. При запуске скрипта - желательно удалить файл куки, оставшийся от предыдущей работы скрипта. Также для файла сохраняющего куки, или для папки куда он сохраняется - должны стоять права на запись.

3. Передаём реферера.

Реферер - это адрес страницы, указывающий откуда пришёл пользователь, т.е. адрес страницы на которой была ссылка или форма, действие которой привело на текущую страницу.

curl_setopt($ch, CURLOPT_REFERER, "http://site.com");

Для чего это нужно? Некоторые сервисы могут его проверять и делать определённые выводы. Например, для парсинга страниц результатов поиска Google - можно установить реферер http://google.com - т.е. мы показываем наш эмулятор браузера - "пришёл" на страницу с результатами поиска с главной страницы.

4. Делаем небольшую паузу между запросами

Юзер не кликает страницы друг за другом, а просматривает их через определённое время, поэтому, в случае, если запрашиваем много страниц циклом - нужно обязательно вставить небольшую паузу.

sleep(5);

Также можно сделать случайную паузу, например от 2 до 10 секунд.

sleep( rand(2,10) );

5. Использование прокси

Чтобы совсем замаскировать следы - можно использовать прокси.

curl_setopt($ch, CURLOPT_PROXY, "111.222.333.444:5555");

Нужно удалять файл куки перед сменой прокси.

Инструкции для эмуляции браузера с использованием CURL получаются следующие:

$url = "http://www.site.com";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$user_agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)";
curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);

$cookie_file = " ..тут вставляем путь к файлу ..";
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);

curl_setopt($ch, CURLOPT_REFERER, "http://site.com");
curl_setopt($ch, CURLOPT_PROXY, "111.222.333.444:5555"); //Прокси - если необходимо

$str = curl_exec($ch);
curl_close($ch);

...

sleep( rand(2,10) );

пятница, мая 11, 2007

Новый Google Analytics

Вот стал доступен новый интерфейс Google Analytics. Теперь сделано очень грамотно и удобно, а не через жопу, как раньше. Видно учли все пожелания от пользователей. Всё интуитивно понятно и просто и находиться там где нужно. Особенно порадовала вкладка "Источники трафика", в старом интерфейсы эти данные были достаточно сложно представлены для восприятия. Большинство данных можно представить в виде графиков и диаграмм (причём, нескольких типов) и сохранить в виде отчётов

Появились новые хитрые параметры, например "Лояльность пользователей", "Скорость подключения пользователей" (Интересно, что такое Лояльность?). Теперь Google Analytics стал действительно необходимой вещью, и по видимому, особенно с сочетании Google Adwords - статистика позволяет отследить буквально каждый вздох юзера, пришедшего по рекламе.

Тур по новым возможностям Google Analytics тут:
http://services.google.com/analytics/tour/index_ru-RU.html

Как поисковики понимают JS

Полезное исследование - наткнулся только сейчас.

http://www.seoweblog.ru/archives/54

Как поисковики понимают JavaScript. Авторы исследовали разные виды JS редиректа - и по их выводам, поисковики умеют выполнять и расшифровывать достаточно сложные редиректы состоящие из зашифрованных JS конструкций, но переходят по редиректам - если там используется объектная модель браузера - например, функции форматирования и обработки HTML на странице, функции обработки действий мышки и другие.

воскресенье, декабря 03, 2006

PR10 сайты

Свежий и небольшой список сайтов с PR10 - их на самом деле совсем не много: http://www.seocompany.ca/pagerank/page-rank-10-sites.php

пятница, декабря 01, 2006

Море волнуется раз..

Две статьи про новый алгоритм Google, на searchengines.ru.

"Можно утверждать, что Google с помощью новостной службы Google News и недавно запущенного поиска по блогам Google Blog Search научился анализировать информационную картину и разделять информационные потоки, которые попадают в его индекс.

На практике это уже обернулось тем, что по англоязычным запросам, связанными с наиболее важными мировыми событиями, поисковая выдача неоднородна и состоит из наложений сайтов из основного индекса, новостей из Google News и постов из Google BlogSearch. Очевидно, что количество выведенных таким образом сайтов определяется исходя из важности события в мировых масштабах - для top-тем поисковая выдача."

"Самое поразительное, что такая выдача находится в постоянном развитии (как и новости, которые непрерывно поступают по важнейшим событиям), поэтому по одному и тому же запросу уже спустя несколько часов можно получить совершенно другие результаты."

Особое мнение - новый социальный алгоритм ранжирования Google
http://www.searchengines.ru/articles/005321.htm

Новый социальный алгоритм ранжирования Google - часть 2
http://www.searchengines.ru/articles/005322.html

среда, ноября 29, 2006

Сабака Яndex

Некоторое время назад делал для одного клиента несколько сайтов-каталогов. Обычные каталоги, с возможностью регистрации и добавления ссылок, объявлений и т.д. Так вот на днях Яндекс забанил пару таких каталогов, как раз когда они начали приносить трафик. На письмо в суппорт, был ответ, что согласно правилам Яндекса, нельзя делать "наполняемые каталоги" и обвинения в поисковом спаме, хотя сайты были то обыкновенными каталогами.

Так может Яндекс забанит собственный Яндекс.Каталог, раз он противоречит собственным правилам? Гы =)

воскресенье, ноября 26, 2006

О TrustRank

Полезная статья о том что такое TrustRank и как он используется, в частности в борьбе с поисковым спамом.

http://www.seonews.ru/article/.publication/113/

среда, октября 25, 2006

Webalta 2.0

Зарелизилась новая версия поисковика Webaltа - 2.0. Добавилось много dynamic-фенечек, делающий поиск более увлекательным, например при переходе по страницам не происходит перезагрузки страницы (ajax) - такого ни у кого нету. Даже, мне показалось, выдача стала более лучшей. Хотя может это из-за того, что один мой проект занял своё законное первое место по своему запросу =)

Новость, в принципе, не ахти какая, у многих есть мнение, что им не удасться составить хоть какую то конкуренцию в будущем не только монстрам как Яндекс, но и небольшим поисковикам - вроде Апорта. Мне тоже кажется - что создавать свой поисковик, бизнес очень сложный и затратный, но с другой стороны концепция интересная - наблюдаю, какие шаги предпринимаются для раскрутки.

P.S
Улыбнуло, варианты подбора слов в Firefox 2 =)

четверг, октября 19, 2006

Как работают поисковые системы

Простая и понятная статья на официальном блоге Яндекса. Рассказываются основные принципы работы и некоторые детали, например, как работает фильтр на проверку дубликатов контента:

http://company.yandex.ru/articles/article10.html

"Хотя размер базы в интернете на поверхностный взгляд не кажется критическим фактором, это не так. Недаром рост посещаемости таких машин, как Google и Fast хорошо коррелируют именно с ростом их баз. Основная причины: «редкие» запросы, то есть те, по которым находится менее 100 документов, составляют в сумме около 30% от всей массы поисков – весьма значительную часть. Этот факт делает размер базы одним из самых критичных параметров системы."

понедельник, октября 16, 2006

Поисковик с человеческим лицом

Стёбно. Улыбнуло =)

http://www.msdewey.com/

Хотя могли бабу посимпотичней выбрать,
блондинку какую-нибудь. =)

суббота, октября 07, 2006

Кладбище блогов

У меня есть папка с закладками, куда я складываю все интересные блоги по SEO-тематике, и просматриваю время от времени. У некоторых авторов иногда проскакивают интересные идеи. Сначала просматривал все закладки раз в пару дней, потом раз в неделю, сейчас раз в месяц. Сегодня просмотрел - 80 % всех блогов из моего списка не обновлялись авторами уже более 2-х месяцев, совсем ничего нового.

Интересно какой процент активных блогов от заброшенных? В исследовании от Яндекса, говорится "не более чем из миллиона за последний квартал обновлялось 540 тысяч - т.е. таких активных блогов в российской блогосфере - 46 %". Интересно, можно ли назвать активным блог, который обновляется раз в квартал? Так что реально активных, думаю, 5-10 % от общего количества.

Так к чему я это всё? Да вот к чему - блоги для меня слабый источник нужной информации. Самый лучший источник информации - это тематические форумы и новостные сайты.

А вот мой блог можно и почитать, я его забрасывать не собираюсь =)

Bite my shiny, metal ass! :-)