Standart indeksleme işlemi, google ve tüm diğer botlar

0
EXE RANK

Lєυтηαηт `

Fexe Kullanıcısı
Puanları 0
Çözümler 0
Katılım
11 Tem 2008
Mesajlar
943
Tepkime puanı
0
Puanları
0
Yaş
34
Lєυтηαηт `
Bu konunun anlaşılması google ve arama motorlarıyla iyi geçinmek isteyen webmasterlar için tasarım ve hazırlı kaşamasında rehber niteliğindedir.



Standart bir İndeksleme şu şekilde işler:

1.) Bot (Örümcek) ana sayfaya ulaşır. Burada sayfaya ait tüm alt bağlantıları ve dışarı çıkan bağlantıları toplar ve kendi veri tabanına indirir.



Diğelim 10 alt klasör ve 10 alt sayfan mevcut 10 adette dışarı bağlantı verilmiş. Bunları toplar.



Ana sayfaya 30 puan verirsek, her bir bağlantıya 1 adet puan verilir. Bunlar ileride google pr hesabına direkt katkı yaparlar.



10 klasörümüzün 10 puanı var toplamda ve her klasöre 1 puan pr gitmiştir.



Şu şekilde olayı gösterelim.

PHP- Kodu:

Ana sayfamız index.html

/klasor1/ = 1 puan

/klasor2/ = 1 puan

/klasor3/ = 1 puan

sayfa1.htm = 1 puan

sayfa2.php = 1 puan

sayfa3.asp = 1 puan

<a href="http:// ....." target="_blank">1. bağlantı adı</a> = 1 puan

<a href="http:// ....." target="_top">2. bağlantı adı</a> = 1 puan

<a href="http:// .....">3. bağlantı adı</a> = 1 puan

Yani ana sayfanız 30 puan önemli ise google gözünde alt sayfalar 1 puan önemlidir. Sıralamada bunu benzer şekilde kullanır.



Bu bölme işlemi standart pr hesaplamasının da temelini oluşturur. Az klasore linki veya sayfaya linki veya çıkış linki olan siteler daha çok pr ve önem taşırlar. (Eksik bilgi var tabi, pr değeri yüksek sitelere çok çıkış vermeninde olumlu etkisi olur)



Şimdi bot bu ana sayfada 30 url topladı diyelim.

10 klasore ulaştı ve burada toplam 50 sayfa 5 klasor daha topladı

Tekrar bu bilgileri veri tabanına indirir ve yeni bir örümcek bu kalan urleleri indekslemeye başlar. Ancak bu işlem için tüm sayfayı indirmesi gerekeceği için açılan kanallarda /thread) bir kopma olabilir ve indeksleme başarılı olamaz. Google botta 1 gigabit bağlantı kullanır ve 100,000 threade ulaştığında thread başına 10kkps gücü kalacaktır. Genelde apache vb. web sunucular vb. tüm isteklere cevap veremez bazılarını kaçırır bu da indekslenmeyen sayfaların açıklamalarından biridir. Bu nedenle tüm sayfa ve omurga yapımızı google'a anlatmak için bir site haritası yaparız.



Şimdi google örümceği tüm bu sayfaları dolaştıktan sonra kendi algoritmasındaki kalite puanına göre bu sayfaları değerlendirir. Ana sayfadan direkt link alan klasor onun bir alt klasörüne göre daha değerlidir.



Bu mantıkla daha çok hit almasını istediğiniz sayfaları ana sayfaya içerik yapmanız veya oradan direkt bağlantı vermeniz daha mantıklıdır.



İndeksleme işlemi olarak google diğer botlardan daha gelişmiştir. Örneğin yahoo slurp botu indekslerken resmen siteye tecavüz eder. Bir anda tüm topladığı bağlantıları gelmeye kalkar ve bazıları eyvah ddos alıyorum sitem niye çöktü durduk yere gibi söylemlere başlar. Botlar bi anlamda sitenin bulunduğu serverı ezerler.



Slurp botu için bu nedenle robots.txt nize bir gecikme verilmelidir. Tabi o zamana kadar yahoo botuna uslu durmayı öretebilirse gerek kalmaz. Google tarama hızını bizim ayalarlamamıza müsade ediyor. Akıllı, terbiyeli bir bot.

robots.txt'nize bu şekilde bir gecikme verdirebilirsiniz.



PHP- Kodu:

User-agent: Slurp

Crawl-delay: 0.5

önce ufak değerle başlanıp yükün çok gelmemesi için daha yüksek değerlere çekilmesi önerilir

PHP- Kodu:

User-agent: Slurp

Crawl-delay: 5

indeksleme işlemi için tek baş belası yahoo değildir cuil, msn vb. arama motorları zaman zaman serverınıza uğrayıp bilgileri veritabanlarına ç-alıntılar yaparlar. Tek kurtuluş bunlara robots.txt disallow vermektir. E'sen de arama motoru yaz sende ç-al ama di mi. Maksat herkes aradığını bulsun. Nerde bu devlet nerde bu adalet diyenler için. Ya da adama bak benim içeriği çekiyor veritabanına atıyor sonra birileri aradıkça benim içeriğimle benden para kazanıyor beş kuruşta bana vermiyor diyenleriniz olabilir.

Bu adamlar dürüstse o zaman korsanlar da dürüst üstelik cesur adamlardır demek geliyor içimden ama korsanlığa özendirmeyim sizleri Sonuçta o korsan olmazsa bize kim hit göndericek bu kadar. Yani aramızda büyük korsanlara ihtiyacımız var, sayelerinde biz küçükler verdikleri hitlerle geçinip gidiyoruz.



kısaca

PHP- Kodu:

User-agent: *

Disallow: /

dosyanızı txt yapıp ftp ana dizinine koyarsanız tüm botları sayarsınız. Korsan botları hariç. Onlar robots.txtye aldırmayan botlardır.



İndeksleme işlemi işte böyle bişey, teknolojin varsa indeksle başka sitelerin haberlerini, sitelerini, blogları vb. vb. hatta git kütüphaneye copyrightları bitmiş kitapları robotlarınla at içeriğine. Sonra fikirleri düşünceleri yarışmalarla topla yatırımların daha çok kazansın diye. İşte al sana yeni bir google (denizaltı gözlüğü) daha.



Şimdi en iyi indeskleyen örümcek en çok içeriği, en kısa zamanda ve en sık aralıklarla indeksleyebilen ve değerli içeriği en yukarı çekebilen örümcektir. Şuan bunu en iyi google yapmaktadır. (Rusların google a rakip arama motoru Randex i ve pek çok başka botu incelemedim henüz)



3 farklı google örümcek var olduğu düşünülür:



1 tanesi siz google.com üzerinde arama yaptığınızda arama motoru veritabanına ulaşıp bilgiyi getiren örümcek.

1 tanesi veritabanına url taşıyan daha yıldırım örümcek bazıları freshbot dediler

1 tanesi içeriği içeriği komple taşıyan kamyoncu örümcek (kamyon kamyon bilgi taşıdığı resmedilerek)
 
Geri
Üst