Как работают поисковые системы:

Как функционируют поисковые машины? В сети Интернет есть многие миллионы web-сайтов на любую тему, что и привлекает туда людей. Но как же ориентироваться в этом океане информации, каким образом можно найти нужный нам сайт (например,Создание интернет магазина), если мы не знаем его точного адреса? Как правило, в этом случае мы пользуемся услугами поисковых машин.
Поисковые машины – это особые сайты, расположенные в сети Интернет, устроенные таким образом, чтобы люди не запутались, бродя по всемирной паутине, и
в одном месте могли найти необходимую им информацию. Поисковые машины работают разными способами, используя свои уникальные алгоритмы, но все они работают на одних и тех же принципах:
- все поисковые машины «прочесывают» Интернет (или какую-то его часть) по определенным ключевым словам;
- все поисковые роботы индексируют страницы web-ресурсов, где они нашли заданные ключевые слова;
- все поисковики дают возможность своим пользователям производить поиск по одному или нескольким ключевым словам и выдают им мгновенный результат, производя поиск уже в своей базе данных, содержащей проиндексированные web-страницы.
Индексные базы первых поисковых машин содержали сотни тысяч страниц, а сами поисковики обрабатывали всего несколько тысяч запросов в сутки. В наши дни ведущие поисковики имеют в своих индексных базах сотни миллионов страниц (и непрестанно индексируют новые страницы), «перелопачивают» десятки миллионов запросов в день.
Далее мы копнем немного глубже и расскажем, как поисковые системы умудряются систематизировать и хранить информацию так, чтобы в любой момент дать ответ на любой наш запрос.

Программа Паук.

Чтобы сообщить вам, где можно отыскать текст или файл, которые вам нужны, эти объекты должны быть предварительно обнаружены. Для этого все поисковые машины используют специальную программу-паук – spider (спайдер). Основные функции этой программы – поиск и обход web-страниц, и построение списка слов, которые она находит на этих страницах – веб-краулинг (webcrawling). Для построения «полезного» списка слов, программа-спайдер, зайдя на веб-страницу, «ползет» по ссылкам дальше, анализируя множество связанных с ней других страниц.
Каким же образом программа-паук (spider) начинает перемещаться по Сети? Как правило, за начальную точку берутся наиболее популярные web-страницы и крупнейшие сервера. Зайдя на такой сайт, паук начинает индексировать все слова, которые он там находит, а затем передвигается дальше, используя ссылки на другие сайты, размещенные на этой web-странице. Такой способ обработки web-страниц позволяет роботу-пауку осваивать web-пространство с невероятной скоростью.
Как известно, поисковая система Google.com изначально была академическим проектом. Контекстная реклама, поисковое продвижение – все это появилось потом. Сергей Брин и Лауренс Пейдж (разработчики и владельцы компании Google) в одной из статей, посвященной описанию процесса создания этой поисковой системы, рассказали, с какой скоростью работают программы-пауки поисковой машины Google. В большинстве случаев поиск начинают 3 паука. Каждый из них, обрабатывая web-страницы, способен работать с 300 одновременно открытыми соединениями. При максимальной нагрузке поисковая система Гугл использует 4 программы-паука, обрабатывая по 100 web-страниц в секунду (трафик – примерно 600 Кб/сек).

Что такое Мета-Теги и для чего они нужны?

Мета-теги – это, по сути, ключевые слова, описывающие содержание web-страницы. Грамотно составленные мета-теги ускоряют индексацию веб-страницы и оказывают влияние на поисковое продвижение сайта. Например, если ключевые слова, указанные в мета-тегах, используются на этой странице несколько раз, можно «подтолкнуть» программу-паук к такому выбору ключевых слов, который выгоден владельцу данного сайта. Осуществляя поисковое продвижение сайта этим способом, некоторые люди используют нечестные приемы, пытаясь обмануть поисковых роботов для поднятия рейтинга своего сайта. Это делается включением в мета-теги популярных поисковых запросов, которые не соответствуют содержанию web-страницы. Поисковые программы-пауки имеют защиту от такой «накрутки»: они анализируют содержание web-страниц, и если ключевые слова, прописанные в мета-тегах этих страниц, не будут соответствовать их содержанию, они будут проигнорированы.
Все вышеописанное относится к тем случаям, когда владелец web-сайта (например, интернет магазина) заинтересован в том, чтобы его ресурс можно было найти по определенным ключевым словам. Но бывает и так, что владельцу сайта не требуется его поисковое продвижение, и он не хочет, чтобы его страницы были проиндексированы роботом-пауком. Впрочем, эти случаи выходят за рамки нашей статьи.