Увійти
10.04.2007

Релевантність. У пошуках відповідності

Релевантність (англ. relevant) — Стосовно до результатів роботи пошукової системи.
— Ступінь відповідності запиту і знайденого, доречність результату.

Це суб'єктивне поняття…

«Вікіпедія»

«Відсортовано за релевантністю» – як багато в цій фразі ... для простого веб-майстра. Релевантність сайту, релевантність видачі пошукової машини, оцінка релевантності, збільшення релевантності - все суть, сподівання і головний біль кожного, хто пов'язаний з просуванням сайту в Мережі.

«При пошуку в Інтернет важливі дві складові - повнота (нічого не втрачено) і точність (не знайдено нічого зайвого). Зазвичай це все називають одним словом - релевантність, тобто відповідність відповіді питання »- говорить нам Яндекс. «Добре, і де ж критерії?» - Питаєте ви. Критерії - це камінь спотикання між пошуковими системами, користувачами і оптимізаторами.
У чому ж, власне, проблема?

Метушня навколо релевантності

Стрімкий і безконтрольне розростання всесвітньої павутини автоматично відвело пошукових машин заголовну роль у віртуальному світі. Для будь-якого сайту пошукові машини це фактично віконця у віртуальний світ, універсальна і найбільш дієва рекламний майданчик. Саме тому на цьому майданчику розгортаються самі «криваві» бої оптимізаторів за Всесвітню популярність власних веб-ресурсів.

Працюючи над основним своїм завданням - точністю пошукової видачі - пошукові машини були змушені розробляти та вдосконалювати критерії релевантності. Основою стали так звані «внутрішні» критерії - щільність ключових слів на сторінці, обсяг змісту, текст заголовків і багато іншого. Однак після того як в Інтернеті з'явилися так звані дорвей-сторінки, створювані виключно з метою всіма правдами і неправдами підняти рейтинг сайту, з'явилася і нагальна потреба в розробці «зовнішніх» критеріїв релевантності.

Принцип цитованості

В основу зовнішніх критеріїв релевантності ліг давно відомий і широко застосовний у світі «принцип цитованості», який також називають посилальної цитованістю або посилальної популярністю. Даний принцип передбачає, що релевантність сайту повинна визначатися його популярністю у віртуальному світі - тим, як і скільки на нього посилаються інші сайти. Цілком розумне рішення - чим більше сайтів рекомендують відвідувачам зайти на чийсь ресурс, тим більш високу оцінку отримує він від пошукової машини (коли в тексті посилання є шуканий термін, звичайно). На обличчя підвищення якості пошуку.

Оптимізатори vs. пошукові машини

Спочатку пошукові машини, враховуючи популярність посилань, вважали кількість сайтів, що посилаються або сторінок, виводячи найпростішу закономірність - чим більше таких сторінок існує, тим популярнішим і важливіше сайт. Однак, у міру того, як боротьба за перші місця у видачі розвідувачів посилювалася, все більш давало себе знати бажання розкручика сайтів обдурити пошукову машину. Для початку з'явилося безліч спеціальних сайтів, так званих «ферм посилань» або «FFA (безкоштовний для всіх)», на яких будь-який веб-майстер міг безкоштовно розмістити посилання на свій сайт. Така методика штучного підвищення популярності посилань деякий час цілком працювала. Однак дуже швидко популярність FFA зіграла з розкручувати сайтами негарну жарт: з'явилися автоматичні програми, які одночасно реєстрували посилання на тисячах «ферм». FFA-сайти, як правило, працювали за принципом конвеєра - нові посилання витісняли старі в низ сторінки. Оскільки кількість посилань на сторінці обмежена, а швидкість просування по мірі автоматизації збільшилася до декількох сотень посилань на годину, то, власне, час присутності вашого посилання в «потрібному місці» зводилося буквально до кількох хвилин. Часу, апріорі, недостатньому для індексації посилання пошуковою машиною. Таким чином порочна система віджила сама себе. Проте проблема залишилася. І пошукові сайти були змушені звернути увагу не тільки на кількість, але і на якість посилань.

Google Page Rank…

Біля витоків нового алгоритму ранжирування першим виявився Google. Він ввів поняття «випадкового серфера» - тобто абстрактного людини, яка блукає по Мережі, переходячи з посилання на посилання і переглядаючи все нові й нові сторінки. Сенс нового алгоритму, що отримав назву Page Rank, зводився до спроби оцінювати кожен документ з урахуванням його ваги в середовищі всіх інших проіндексованих документів мережі, що посилаються на оцінюваний. Тобто, по суті, Page Rank - це спроба пошукової машини передбачити і використовувати в якості критерію ймовірність того, що випадковий користувач потрапить на ту чи іншу сторінку. Безсумнівно, що дана система оцінки релевантності виглядає набагато більш «перешкодостійкою», а, значить, максимально корисною для користувачів пошукових машин і мінімально придатній для штучної накрутки популярності веб-ресурсів.

Як працює даний алгоритм? Для початку шукаються всі сторінки, в яких є слова із запиту користувача пошукової машини. Знайдені сторінки ранжуються на основі «внутрішніх» критеріїв релевантності. Враховується кількість посилань на сайт. Результати коригуються за допомогою Page Rank кожної сторінки. Безпосередня формула для присвоєння сторінці «розряду» (Rank) виглядає наступним чином:

R(A)= C*(R(B1)/N1+...+R(Bi)/Ni)

где:

R(A) – Page Rank страницы;
R(Bi) – Page Rank ссылающейся сторінки;Bi;
Ni – кількість посилань на сторінці B;
С – коефіцієнт згладжування (загасання), використовується для сторінки або групи сторінок. Перешкоджає «накрутці» Page Rank. Звичайно дорівнює 0,85.

Google ранжує значення PR від 0 до 10. При цьому зв'язок значення PR, яку показує Google ToolBar (спеціальний сервіс Google, що відображає PR сторінки) і абсолютного значення має наступний вигляд:

Абсолютне значення
(Діапазон)

Значення PR
1-10 1
10-100 2
100-1000 3
1000-10000 4
и т.д.

З цієї залежності очевидно наступне: збільшити значення PR з 1 до 2, буде істотно легше, ніж, приміром, з 6 до 7. Англомовні сайти середньої розкрученості дають PR на рівні 4-5. Якщо цей критерій вище 6 - ресурс можна вважати дуже добре розкрученим. Більш високе значення PR - завдання, вирішення якої під силу великим світовим корпораціям. Той же Google або Microsoft. Одні з найпопулярніших російських веб-ресурсів, такі, як Rambler або Lenta.ru демонструють значення Page Rank, рівне 7-8.

Теоретично можна припустити, що створення н-го кількості сторінок і проставлення на них посилання на одну може забезпечити їй хороше значення цитованості. Однак на практиці реалізація даної ідеї потребує значно більше часу, ніж збільшення PR за допомогою зовнішніх посилань.

В цілому, ідея подібного алгоритму виявилася вельми вдалою і, з часом, ноу-хау Google перейняли більшість пошукових систем.

…и Яндекс тІЦ

Але, незважаючи на свою заслужену популярність, формула Page Rank ніяк не враховувала «вага» посилань, тобто їх якісну характеристику. Саме тому Яндекс розробив власний алгоритм обліку зовнішніх посилань.

Тематичний індекс цитування (тІЦ) в пошуковій системі Яндекс був створений, щоб визначати релевантність веб-ресурсів в Яндекс, зважаючи на якість посилань на них з інших сайтів. Якість посилання або її «вага» розраховувалися за спеціально розробленим алгоритмом, що враховує, в першу чергу, кількість посилань і тематичну близькість посилаються на ресурс сайтів. При цьому, однак, посилання з іноземних ресурсів Яндексом були повністю проігноровані. З урахуванням того, що сайтів не .ru і не .su в світі більш, ніж достатньо, похибка остаточних розрахунків може бути досить значима для користувача. З іншого боку, наявність Вашого сайту в західних каталогах, навіть дуже популярних, ніяк не допоможе збільшити тІЦ.

Що стосується оцінки тематичної близькості сайтів, що посилаються, то Яндекс визначає схожість тематики по розташуванню ресурсів у власному каталозі. Для сайтів, які не входять в каталог, застосовуються інші технології.

тІЦ можна подивитися за допомогою різних сервісів, один з найпоширеніших в Росії - Page Promoter Bar. Однак, тІЦ не є критерієм релевантності пошукової видачі Яндекса. Тільки для сортування власного каталогу! Для пошукової системи вираховується вже інший індекс - так званий зІЦ(зважений індекс цитування). Який, на жаль, звичайним користувачам недоступний. Тому всім зацікавленим ступінь «розкрученості» сайту припадає приблизно оцінювати за тІЦ.

Закритий алгоритм

Отже. Заявлені формули успіху (релевантності), що знаходяться у відкритому доступі для оптимізаторів веб-ресурсів, насправді недостатньо повні, щоб сподіватися на них в реальному «боротьбі» за популярність свого сайту. У той же час, як ми вже говорили, ускладнення вихідних алгоритмів пошукових машин почасти провокують самі оптимізатори. Розробники пошукових машин змушені балансувати між спробою знайти чинники, які важко «накрутити», але при цьому достатні та оптимальні, щоб справлятися з основним завданням - адекватно оцінювати релевантність сайтів.

Ранжирування посилань в цьому сенсі дуже перспективно. Але, безсумнівно і те, що пошукові машини будуть ускладнювати алгоритми пошуку та аналізу посилань (а також вводити в ужиток і нові критерії, наприклад, TrustRank). Більш того, всі нюанси алгоритмів будуть продовжувати тримати в таємниці від громадськості, аби уникнути «зловживань» з боку оптимізаторів.

Підтвердженням цьому служить вже згаданий зважений індекс цитування Яндекса. Повністю параметри, які враховує Яндекс при розрахунку зІЦ, не відомі. Однак експерименти показують, що, крім кількості посилань і тематичної близькості сайтів, на результат пошуку також впливають і розташування посилання (головна сторінка чи підрозділ) і якірний текст. Крім того, Яндекс з розрахунку індексу виключає посилання, розташовані на дошках оголошень, форумах, блогах, «фермах» і сайтах, розташованих на безкоштовних хостингах. Ще більш загадковий алгоритм Rambler. Припускають, що Rambler велику вагу надає власному рейтингу, а також, можливо, використовує певний фільтр посилань, для оцінки їх кількості та дати появи. Крім цього, даний пошуковик «не любить», коли кількість посилань на сайт раптом різко збільшується, правомірно підозрюючи, що має справу з «незаконної» накруткою. Що стосується першозасновника принципу цитованості Google, то недавно один з його розробників зізнався, що фактор Page Rank при ранжируванні сторінок враховується все менше і менше, оскільки в даний час додалися сотні інших критеріїв. У тому числі оцінка текстів посилань і текстів сайтів. Сотні критеріїв згадані, швидше за все, щоб остаточно деморалізувати оптимізаторів і відбити у них всяку охоту штучно просувати свої сайти. Насправді, як зазначив в одному зі своїх інтерв'ю засновник і технічний директор компанії «Яндекс» Ілля Сегалович - пошукові машини, розробляючи свої алгоритми, враховують не так багато факторів, як думають оптимізатори. Однак «вагу» кожного параметра постійно змінюється.

Чи може оптимізатор в умовах постійно оновлюються і мінливих алгоритмів пошукових машин досягти стабільного успіху в розкручуванні веб-ресурсу? Що для цього треба зробити? Про це, і про шляхи вирішення багатьох нагальних проблем SEO-просування, можна докладніше дізнатися на безкоштовних семінарах серії "Аналіз, просування і управління ресурсом в інтернеті". Дані семінари проводять провідні фахівці в галузі кибермаркетинга компаній NetPromoter та UnMedia. Найближчий семінар відбудеться 19 квітня в Москві.

Повернення до списку