0
Robots.txt

Robots.txt

Robots. txt nedir?

Robots. txt arama motoru yazılımlarınıza hangi alanlarını dizine ilave edilebileceğini, hangi arama motorunun yazılım giriş izni olduğunu, hangi dizini taraması gerektiğini veya yazılım giriş izni olmadığını belirtmeye yarayan basit bir komut dosyasıdır. Örümcek olarak da bilinen aramam motoru yazılımları sayfanıza geldiği zaman ilk olarak bu dosyayı taramaya başlar ve dosyada yer alan komutlara göre sayfanın izin verilen bölümlerini dizine ilave eder.

Basit bir şekilde ifade etmek gerekirse robots. txt sitenizin sınır kapılarını kontrol etme anlamına gelir. Arama motorları hangi sınır kapılarından geçebileceğini, hangi kapılardan geçemeyeceğini, hangi arama motoru botunun giriş iznine sahip olduğunu, hangisinin giriş iznine sahip olmadığını tespit etmenizi sağlar. Robots. txt dosyası ve içermiş olduğu komutlar doğru bir biçimde hazırlandıysa, arama motoru botları sunulmuş olan bu kurallara uyar ve sayfanızı vermiş olduğunuz komutlar doğrultusunda taramaya başlar. Bu işlem Robotları Engelleme Standartları (ya da Robot Engelleme Protokolü) olarak da bilinir.

Robots. txt dosyası, her bir web sitesinde mutlaka bulunması gereken bir dosyadır ve doğru bir biçimde hazırlanmış olması gerekir. Doğru komutlarla hazırlanmış olan bir robots. txt dosyası arama motorları tarafından pek dikkate alınmaz ve taranmasını istemediğiniz dizinleri de tararlar. Bu sebepten dolayı kendisi küçük ama etkisi oldukça büyük olan bu dosyanın doğru bir biçimde hazır vaziyete gelmiş olması gerekir.

Robots. txt Dosyasını ve Komutlarını Nasıl Anlarız?

Robots. txt dosyası belli standartlara uygun biçimde hazırlanmalıdır ve sayfanızın kök dizinine yüklenmelidir. Robots. txt dosyası yapılırken dikkate alınması gereken en önemli noktalar ise şunlardır:

  1. Robots. txt dosyasının sitenizde yer alan kök dizininde yer alıyor olması
  2. Robots. txt dosyasının UFT-8 karakter kodlamasına uygun olarak hazır vaziyete getirilmesi
  3. Robots. txt dosyasının site URL’si ile aynı formata sahip olması

Robots. txt dosyasının sitenizin kök dizininde yer alıyor olması mutlak bir mutlaka gereklidir ve dosya oluştururken herhangi bir alt klasörde ya da başka bir sayfada bulunması gerekir. Robots. txt dosyasının URL’si kesinlikle standart olması gerekir, örneğin;

Yanlış olan: https://www.siteadresiniz.com/main/robots.txt

Doğru olan: https://www.siteadresiniz.com/robots.txt

Robots. txt dosyası düz metinden meydana gelmeli ve UFT-8 karakter kodlaması haricinde bir karakter kodlaması kullanılması gerekir. Robots. txt dosyası değişken ve dinamik içeriğe sahip olabilir, dosyayı istediğiniz vakit istediğiniz biçimde düzenleyebilir ve değiştirebilirsiniz. Size tavsiyemiz, dosyanın her zaman çalışır vaziyette olması, herhangi bir nedenle kullanımdan kaldırılmaması ve gizlenmemesi gerekir.

Bunun yanında robots. txt dosyasının sahip olmuş olduğu URL, sitenizin eriştiği URL ile aynı olması gerekir. Eğer https protokolü kullanıyorsanız, Robots. txt dosyanızın adresi de https protokolüne uygun bir biçimde düzenlenmesi gerekir. Örnek verecek olursak;

Doğru olan:

Robots.txt URL’si: https://www.siteadresiniz.com/robots.txt

Site URL’si: https://www.siteadresiniz.com/

Yanlış olan:

Robots.txt URL’si: https://www.siteadresiniz.com/robots.txt

Site URL’si: https://www.siteadresiniz.com/

Robots. txt içinde belirli olan işlemleri yerine getirmek için standartlaşmış komutlar kullanılır. Temel olarak bu komutlar 3 ana başlık üstünde toplanmaktadır:

    • Arama motoru robotu engelleme / izin verme 
    •  Grup komutları
    • Sayfa engelleme / izin verme
    • Dizin engelleme / izin verme
    • Site haritası belirtme
    • Tarama gecikmesi belirtme
    • Grup dışı komutlar
    • Notlar ve yorumlar
    • Dosya eklemesi yaptığınız komutlar için not ve yorum yazma

Grup Komutları Hakkında

Grup komutları, net ve kesin ifadelerden oluşması gerekmektedir. Yazım hatası yapılmış ya da hiç var olmayan dizin veya sayfalarla alakalı komutlar kesinlikle dikkate alınmaz. Komutlarda küçük –büyük harf ayrımları yapılmaz fakat komutlarla belirtilmiş olan dizin veya URL’lerde büyük küçük harf ve özel karakter ayrımları yapılabilmektedir. Komuttan sonra belirlemiş olduğumuz bölüm, URL veya dizinin nasıl adlandırıldığına göre değişkenlikler gösterebilir. Grup komutlarına örnek verecek olursak aşağıda belirttiğimiz komutları kullanabilirsiniz:

  • User-agent: Kullanıcı aracısı olarak da belirleyeceğimiz bu komut, sayfanıza hangi arama motoru robotunun gelip gelemeyeceğini belirtmenizi sağlar. Örnek verecek olursak arama motorlarının sayfanızı taramasını istemiyorsanız, user-agent komutundan faydalanabilirsiniz. Böyle bir ayrımı yapabilmek için sayfa veya dizin engelleme / izin verme komutunu da kullanmanız gerekir.
  • Dizin engelleme / izin verme: Sitenizde yer alan belli bir dizinin taranmasını isteyip istemeyeceğinize göre belirlemek istediğiniz komut satırını oluşturmanızı sağlamaktadır. Örnek verecek olursak sitenizde bulunan görselleri arama motorları aracılığıyla taranmasını istemiyorsanız, bu komut satırından faydalanabilirsiniz.
  •  Sayfa engelleme / izin verme: Sitenizde yer alan belli bir dosyanın taranmasını isteyip istemeyeceğinize göre komut satırını meydana getirmenizi sağlar. Örnek verecek olursak sitenizde bulunan çok özel bir dosyanın arama motorları aracılıyla taranmasını istemiyorsanız, bu komut satırından faydalanabilirsiniz.
  • Tarama gecikmesi belirtme: Sitenizin belirtmiş olduğunuz süre içinde taranabildiği kadar taranmasını ve bu süre haricinde kalan sayfaların taranmamasına neden olan bir komut satırını ifade eder. 

Komut satırlarının kullanım örneklerine bakacak olursak:

User-agent: user-agent komutunu kullanarak arama motorlarının tamamının sayfanızı taramasını engellemek istiyorsanız robots. txt dosyasını aşağıda belirttiğimiz şekilde düzenlemeniz gerekmektedir:

user-agent: *
disallow: /

Önerilen: Arama motorlarının tamamına izin vermek için, user-agent: * komut satırını tek başına kullanmanız gerekir.

Dizin Engelleme / izin verme: Allow veya disallow komutlarından faydalanarak sitenizde yer alan belirli dizinlere erişim yetkisi verilebilir veya sıralama ilave edebilirsiniz. Bu alanda yapmış olduğunuz değişiklik yalnızca arama motoru robotlarına özeldir kullanıcılar ise komut vermiş olduğunuz dizine erişim sağlamaya devam edebileceklerdir. Örnek verecek olursak:

user-agent: *
disallow: /ozel/

Yukarıda vermiş olduğumuz komut satırını kullandığınız zaman, arama motoru robotu sitenizde yer alan https://www.siteadresiniz.com/ozel/ URL’sine sahip olan “özel” dizinleri taramayacak ve bu dizinin içinde bulunan dosyaları dizine eklemeyecektir.

Sayfa Engelleme / izin verme: Disallow veya allow komutlarından faydalanarak sitenizde yer alan sayfalara erişim izni verilebilir veya sınırlama koyabilirsiniz. Bu alanda yapacağınız değişiklikler yalnızca arama robotuna özeldir. Kullanıcılar komut vermiş olduğunuz sayfalara erişim sağlamaya devam edebileceklerdir. Örnek verecek olursak;

user-agent: *
disallow: /ozel-belgeler.html/

Yukarıda vermiş olduğumuz komut satırı da, yalnızca https://www.siteadresiniz.com/ozel-belgeler.html adresinde bulunan içeriğin taranması ve dizinlere eklenmesini engelleyecektir. URL ve dizin arasındaki ayrımı yapabilmek bu açıdan çok önemlidir.

Tarama Gecikmesi Belirtme: Crawl-delay komutundan faydalanarak, arama motoru robotunun tarama için harcamış olduğu zamana sınır koyabilirsiniz. Genelde bu komutu sık bir şekilde komut hatası yaşayan veya gereğinden fazla ziyaretçi trafiği yüzünden bazı zamanlar geçici olarak hizmet verememe ihtimali bulunan siteler için oldukça kullanışlıdır. Bu amaçlar haricinde kullanılmaması doğru olur. Örnek verecek olursak belli bir arama motoru robotunun sitenize geldiği zaman yalnızca iki dakikalığına sitenizde tarama yapmasını istiyorsanız, şu şekilde bir komut kullanabilirsiniz.

user-agent: yandexbot
crawl-delay: 2

Yukarıda belirtmiş olduğumuz komut satırında, Yandexbot’un iki dakika içinde taramış olduğu kadar sayfa taraması, iki dakika son bulduktan sonra kalan sayfa ve dizinleri taramadan siteyi terk etmesi gerektiği belirtilmiştir.

Grup Dışı Komutlar

Grup dışı komutlar, sitemap. xml yerini göstermek için kullanılmaktadır. Kullanımı oldukça basittir ve yalnızca sitemap.xml dosyasının URL’sinin doğru bir şekilde yazılmış olması gerekir. Sitemap.xml dosyası, sayfanızın taranması bakımından arama motoru botlarına sayfanızı tararken öncelikle robots.txt dosyasına göz atmaktadır ve bu dosyanın içinde sitemap.xml dosyasına dair herhangi bir içerik tespit edememesi bir dezavantaj meydana getirebilir. Örnek verecek olursak;

user-agent: *
Sitemap: https://www.siteadresiniz.com/sitemap.xml

 

YAZAR HAKKINDA



YORUMLAR (0)
YORUM YAP