Google, siz herhangi bir kelimeyi aramadan önce, web tarayıcıları yüzlerce milyondan fazla web sayfasındaki bilgileri toplar ve bilgileri arama dizininde düzenler. Arama yaptığınızda ise bu bilgiler içerisinden en alakalı olanları sizinle paylaşır. Bu yazımızda Google Botları’nın WEB sayfalarını nasıl indexlediğini açıklıyoruz.
Tarama (Crawling) Yaparak Bilgi Bulma ve Toplama
Web, giderek büyüyen milyarlarca kitap barındıran ve merkezi dosyalama sistemi olmayan bir kütüphane gibidir. Kamuya açık web sayfalarını keşfetmek için web tarayıcıları (web crawlers) olarak bilinen yazılımı kullanılmaktadır. Tarayıcılar internet üzerindeki sayfalara bakar ve bu sayfalarda yer alan bağlantıları takip eder; tıpkı sayfadan sayfaya geçiş yapmanız gibi. Web tarayıcıları, linkten linke gidip bu web sayfaları ile ilgili verileri Google’ın sunucularına iletirler.
Tarama işlemi, web sitesi sahipleri tarafından belirtilen geçmiş tarama ve site haritalarından(sitemap) alınan web adreslerinin bir listesinden başlar. Tarayıcılar bu web sitelerini ziyaret ederken, diğer sayfaları keşfetmek için bu sitelerdeki bağlantıları kullanırlar. Yazılım, yeni sitelere, mevcut sitelerdeki değişikliklere ve ölü linklere özellikle dikkat eder. Bilgisayar programları, hangi sitelerin taranacağını, ne sıklıkta ve her siteden kaç sayfa alınacağını belirler.
Web sitesi sahiplerine sitelerinin nasıl tarandığına ilişkin ayrıntılı seçenekler sunmak için web master (search console) araçları kullanmaları önerilir. Bu araçları kullanarak, web sitelerinde sayfaların işlenmesi hakkında ayrıntılı talimatları görebilir, yeniden tarama isteğinde bulunabilir veya “robots.txt” adlı bir dosya kullanarak tamamen kendinize göre düzenlemeler yapabilirsiniz. Google, bir siteyi daha sık taramak için ücret kabul etmez; kullanıcılar için mümkün olan en iyi sonuçları elde etmek için tüm web sitelerine aynı gözle bakar. Yani herhangi bir ayrıcalık tanımaz.
Dizine Eklenen Sayfaları Organize Etme
Tarayıcılar bir web sayfası bulduklarında, algoritmalar bir browser’ın yaptığı gibi sayfanın içeriğini oluşturur. Anahtar kelimelerden web sitesinin yeniliğine kadar pek çok önemli konu üzerinde durur ve bunların hepsini arama dizininde takip eder.
Google arama dizini, yüzlerce milyondan fazla web sayfası içermektedir ve boyutu 100.000.000 gigabayttan daha fazladır. Bu, her web sayfasında görülen her kelime için dizinlenen bir kitabın index kısmı gibidir.
Knowledge Graph ile Google, ilgilendiğiniz kişileri, yerleri ve eşyaları daha iyi anlamak için anahtar kelime eşlemesinin ötesine geçmeye çalışır. Bunu yapmak için, yalnızca web sayfaları hakkında değil, diğer bilgi türleri hakkında da bilgi düzenler. Bugün Google, büyük kütüphanelerdeki milyonlarca kitaptaki metni aramanıza, seyahat biletlerinizi otobüs firmalarından almanıza veya Dünya Bankası gibi kamu kaynaklarından veri yönlendirmenize yardımcı olan bir araçtır.