Що таке пошукові машини і як вони працюють?

Пошукові системи складаються з п'яти окремих програмних компонентів.
• Система видачі результатів (Search engine results engine) – витягує результати пошуку з бази даних.
• Павук (Spider) - це програма, яка викачує веб-сторінки. Вона працює точно так, як і ваш браузер, коли ви з'єднуєтеся з вебсайтом і завантажуєте сторінку Туж дію (скачування) ви можете спостерігати, коли переглядаєте деяку сторінку, вибираючи опцію "перегляд HTML-коду" в своєму браузері.
• Краулер ( C r а w l e r ) - програма, яка автоматично проходить по всім посиланням, знайденим на сторінці, і виділяє їх. Його завдання - визначити, куди далі повинен йти павук, ґрунтуючись на посилання або виходячи із заздалегідь заданого списку адрес. Краулер, слідуючи по знайдених посиланнях, здійснює пошук нових документів, ще не відомих пошуковій системі
• Індексатор ( I n d e x e r ) - розділяє сторінку на частини і аналізує їх. Такі елементи, як заголовки сторінок, заголовки в тексті сторінки заслання, власне текст і його структурні елементи, елементи BOLD ITALIC і ін., вичленяють і аналізуються окремо.
• База даних (Database) - сховище всіх даних, які пошукова система викачує і аналізує. Вона часто вимагає значних ресурсів.
Невірно вважати, що пошукові машини шукають сайт відразу, як тільки ви ввели ключове слово в запиті.
Це - чистої води міф, що пошукові машини переглядають весь Інтернет у пошуках потрібного запиту. Пошук здійснюється лише в межах власної бази даних ПМ (індексу). І звичайно, об'єм і новизна відомостей визначається тим, як часто оновлюється база даних. Крупні ПМ індексують інформацію подібно до каталогу в бібліотеці. Зберігаючи великий об'єм інформації, вони повинні уміти швидко знаходити потрібні документи за заданими ключовими словами або фразами. Але самих веб-сторінок ще більше, ніж безпосередньо даних про них. Інтернет в цілому не має жодної чіткої структури, і об'єднує безліч вельми різних за змістом і авторським оформленням сайтів. Це робить майже неможливим для пошукової машини вживання стандартних методів використовуваних в управлінні базою даних і в звичайному інформаційному пошуку.
Пошукові алгоритми (математичні методи програмування, що сортують знайдені результати) кожного з пошукових сервісів унікальні. У цьому можна переконатися, ввівши ключове слово або фразу, наприклад, в пошукову систему www.yandex.ru і запам'ятавши результати, а потім повторивши те же саме на www.rambler.ru або www.google.ru. У різних пошукових машинах ви завжди отримаєте різну інформацію. Враховуючи цей факт, до різним пошуковим службам слід застосовувати індивідуальний підхід.
Популярна пошукова система Google- найкрупніша пошукова машина в світі (з базою даних з декількох мільярдів файлів) - охоплює лише малу долю даних, що містяться у всій світовій веб мережі. Не слід забувати що Веб зростає швидкими темпами. Тут не слід забувати про практичні обмеження, що визначаються розміром веб-сторінки. В середньому, кожна сторінка містить 5-10 Кбайт тексту, тому, навіть якщо враховувати, що ПМ зберігає інформацію лише про текстові сторінки, це вже виливається в десятки терабайтов, які знаходятся в сховищі пошукових систем. Крім того, існує так звана "невидима мережа", що має більше 550 млрд документів, з якими пошукові машини або не знайомі (не пов'язані з іншими сайтами), або не можуть отримати до них доступ (деякі ділянки захищені паролем), або їх технологія просто не дозволяє їм "захопити" ці сторінки (наприклад, із складними типами файлів:
візуальними, аудіофайлами, мультиплікацією, стислими файлами і т. д.). Постійно "повзати" по мережі і індексувати веб-сторінки з безліччю документів, як це роблять пошукові системи, - завдання не з простих. Підтримка бази даних ПМ вимагає інвестицій для забезпечення роботи, оновлення технічних ресурсів і продовження наукових досліджень.
Необхідно також розуміти, що бази даних пошукових машин постійно змінюються. Google може мати більше сторінок, внесених до свого індексу чим, скажімо, Yandex (www.yandex.ru). Проте, наприклад, якщо Yandex оновлюєсвої дані швидше, ніж Google, то навіть при його відносно невеликій кількості сторінок це може дати користувачеві свіжіші і різносторонні результати. Окрім чисто технічних чинників, тут потрібно брати до уваги багато інших.
Оскільки пошукові машини часто повертають результати, не відповідні поточним запитам, актуальною залишається проблема своєчасного оновлення інформації в базах даних ПМ. Окрім нових сторінок, які щодня з'являються в мережі, безперервно оновлюються і старі. Спайдери ПМ знаходять мільйони сторінок в день, які заносяться в базу даних і індексуються. Але пошуковим системам дуже важко визначити частоту змін сторінок. Спайдер може "заповзти" на сторінку один раз, потім повернутися до неї, аби відновити, і, можливо, виявить, що були зроблені якісь зміни. Але він не зможе з'ясувати, скільки разів сторінка змінювалася починаючи з останніх його відвідин.
Деякі веб-сайти змінюються дуже часто. Сюди відносяться, наприклад сайти новин або електронної комерції, де інформація повинна постійно оновлюватися (зміни цін, номенклатури продукції і т. д.). В даний час проводиться багато як наукових, так і комерційних досліджень для створення і вдосконалення методів оперативного виявлення свіжій інформації. Навіть якщо "важлива" сторінка перевірятиметься слайдером кожні 48 годин, веб-майстри можуть оновлювати ці сторінки набагато частіше.
Коли веб-майстер завантажує сторінку на сервер, а потім робить її доступною для пошуку через "Submit URL" в пошуковій машині або коли сторінка виявлена пошуковою машиною через посилання з іншого сайту, саме на цей момент її вміст буде проіндексовано пошуковою машиною. Так, якщо в день індексації сторінка має певне число слів, які містяться в певному числі параграфів і в деякій мірі відносяться до ключового слова, - все це буде записано в індексі пошуковою машини до наступної індексації. Якщо автор сторінки вирішить зробити нові доповнення (зображення, заголовки, редагування тексту), то ПМ не "знатиме" про це до наступних відвідин сторінки. Якщо користувач робить запит на певну тему того дня, коли пошукова машина якраз відновила цю сторінку, то він отримає оновлену інформацію яка вже попала в базу даних пошукової системи. Але якщо автор змінив сторінку (змінив контекст або прибрав важливі посилання на тему), то ПМ все одно приведе користувача по ссилці вихідної "старої" сторінки. Звичайно, така ситуація розчаровує користувача, який хотів знайти веб-сторінку, відповідну його запитам. Це одна з головних проблем пошукових машин.
Вони просто не можуть постійно стежити за змінами веб-сторінок. Технічні ресурси зазвичай розраховані на те, що пошукова машина оновлює інформацію кожні 4-6 тижнів, а то і рідше. Представники Google наприклад, стверджують, що оновлюють десятки мільйонів сторінок щодня але все це - лише нікчемна частина наявної в мережі інформації. Так, якщо навіть зовні пошукові машини здаються вам схожими, то, що ви бачите в їх результатах по ваших запитах, залежить від сайтів, які вони індексують, від новизни їх баз даних і від того, як вони сортують і підносять результати користувачеві.

Не завжди зрозуміло, як визначати сам термін "пошукова машина", тому що навіть спайдеры каталогів інколи шукають інформацію і повертають результати. Зрозуміло, в пошукових системах немає редакторів, що переглядають мільярди сторінок, аби особисто перевірити їх якість. І каталоги теж не можуть дати всім користувачам саме те, що вони шукають. Таким чином, для пошукових систем доцільніше розставити певні пріоритети перевірених редакторами надійних каталогів сторінок. Пошукові технології, використовувані краулерами, придатні і для каталогів що допомагає долати обмеження маленьких баз даних.