Kako rade pretraživači Interneta?
Spisak zadataka koje moraju obaviti pretraživači da bi omogućili relevantne rezultate korisnicima koji ukucaju ključne reči nije dugačak, ali predstavlja ogroman posao.
- Pregled Web sadržaja
Kompanije koje razvijaju pretraživače Interneta koriste automatizovane programe nazvane boot-ovi ili spider-i. Ovi programi prate hiperlinkove na Web stranama da bi pretraživale Web strane i ostala dokumenta postavljena na Web servere širom sveta koji čine World Wide Web. Procene govore da od postojećih 20 milijardi Web strana, boot-ovi odnosno spideri popisuju sadržaj između 8 i 10 milijardi Web strana.
- Indeksiranje Web sadržaja
Kada spider jednom pregleda Web stranu, njen sadržaj biva indeksiran - reči koje postoje na toj Web strani bivaju ubačene u ogromnu bazu podataka u kojoj se beleži da je određena reč prisutna na određenoj Web strani. Pomenuta baza podataka zove se indeks pretraživača Interneta. Struktura podataka zapisanih u indeksu dominantno utiče na brzinu kojom će pretraživač Interneta odgovarati na upite posetilaca.
- Obrada upita
Kada korisnik pretraživača Interneta unese ključnu reč ili frazu (stotine miliona upita dnevno), pretraživač u indeksu pronalazi sve Web strane i dokumenta koje sadrže zadate reči. Za zadat upit car and driver magazine Google vraća 19,4 miliona rezultata što predstavlja broj mesta (neka možda i na istoj Web strani!) na kojima je na Webu zapisana neka od reči iz upita. Ako zadate pomenutu frazu pod navodnicima ("car and driver magazine"), broj rezultata biće samo 133.000. U prvom slučaju (tzv. Find All mod) Google u rezultatima vraća spisak linkova ka svim Web stranama i dokumentima koji sadrže reči car, driver i magazine (reč and se ignoriše pošto ne sužava pretragu), dok u drugom slučaju vraća spisak samo onih Web strana koje sadrže celu frazu ("car and driver magazine"). Postoje i napredniji operatori koji se mogu umetati između ključnih reči radi redukovanja rezultata pretrage.
- Rangiranje rezultata
Kada pretraživač pronađe u svom indeksu Web strane koje sadrže zadate ključne reči ili frazu sledi najvažniji posao! Pretraživač po algoritmu (skupu zadatih kriterijuma) određuje koje su Web strane relevatnije za zadati upit i sortira spisak pronađenih Web strana sa najrelevatnijom na vrhu prve strane trudeći se da olakša pretragu korisniku koji je zadao upit.
Pretraživači Interneta obrade milione upita u sekundi da bi korisnicima dali spisak što relevantnijih rezultata. U poslednje vreme porast broja nerelevantnih rezultata uočen je baš na Google-u koji indeksira najveći broj Web strana, jer biti na prve dve strane rezultata pretrage na Google-u znači život ili smrt za poslovanje kompanija!
Sledeći tekst: Brzinske prepreke i zidovi za spidere
|