SEO açısından en önemli unsurlardan biri olan ancak web sitesi sahipleri tarafından bilgi sahibi olunmadığı için göz ardı edilen konu robots.txt dosyasıdır. “robots.txt nedir?” sorusuna verilebilecek en basit yanıt arama motorlarına herhangi bir web sitesinin nasıl taranacağı hakkında bilgi veren dosya şeklinde açıklanabilir. Diğer bir deyişle arama motorlarının botlarına aslında bir yol haritası çizer.
Robots.txt Nedir, Nasıl Oluşturulur?
Öte yandan Robot Engelleme Protokolü’nün de bir parçası sayılan robots.txt dosyaları web siteleri oluşturulurken mutlaka göz önünde tutulmalı ve nasıl oluşturulduğuna dair eksik bilgiler tamamlanmalıdır. Yanlış komutlar kullanılarak oluşturulmuş bir robots.txt dosyası nedeniyle web sitenizin belki de hiç bir zaman sıralamada çıkmaması ihtimali vardır. Çünkü robots.txt dosyası, adeta sitenizin sınır kapılarını denetleme aracıdır. Arama motorları sitenizi incelerken, hangi kapıdan gireceklerini, hangilerinin kullanılmadığını, arama motorunun giriş izni olup olmadığını anlar.
Robots.txt & Seo İlişkisi
SEO çalışmalarından daha yüksek verim alınabilmesi için robots.txt dosyasının sağladığı avantajlardan mutlaka yararlanılmalıdır. Çünkü robots.txt dosyasının SEO açısından tekrarlanan içerikleri engelleme, site haritalarının yerlerini net olarak belirleme, bir takım dosya eklerinin sıralanmasını engelleme ve yine bazı subdomain ya da subfolder bölümleri gibi alanları gizleme konusunda ciddi faydaları vardır.

Robots.txt ve Komutların Açılımları Nelerdir?
Web sitelerinin kök dizininde yer alan robots.txt dosyalarının hazırlanması için belirli standartlara uyulmalıdır. Bu kapsamda dikkat edilmesi gereken en önemli 3 faktör şunlardır:
- Robots.txt dosyasının web sitesine ait URL formatı ile aynı olması,
- Bu dosyanın Mutlaka site kök dizininde yer alması,
- Dosyanın UTF-8 türündeki kodlamaya uygun şekilde hazırlanması.
Örneğin, robots.txt dosyası için “https://www.sitenizinadresi.com/main.robots.txt” olarak hazırlarsanız yanlış bir seçim yaparsınız. Çünkü dosyanın herhangi bir alt klasörde yer alması ya da başka bir sayfaya atanması istenmeyen bir durumdur. Bunun yerine “https://www.sitenizinadresi.com/robot.txt” olarak kullanmak doğru bir seçenek olacaktır.
Öte yandan robots.txt dosyasına ait kullanılan URL, sitenize erişim için kullandığınız URL ile aynı olmalıdır. Eğer protokol olarak https kullanıyorsanız, robots.txt dosyasının adresi de bu protokole göre düzenlenmelidir. Örnek vererek açıklayacak olursak;
Sitenin URL’si: “https://www.sitenizinadresi.com/”
Robots.txt URL’si: “https://www.sitenizinadresi.com/robot.txt” doğru kullanımlardır.
Robots.txt Dosyası Oluşturma Bileşenleri
Bu dosya içerisinde bir takım işlemleri gerçekleştirmek üzere kullanılan standart komutlar mevcuttur. Temel olarak bu tip komutlar 3 farklı grupta toplanabilir:
- Grup içi komut türleri
- Dizin engelleme / izin verme
- Arama motoru robotu engelleme / izin verme
- Tarama gecikmesi belirtme
- Sayfa engelleme / izin verme
- Grup dışı komut türleri
- Site haritası belirleme
- Yorumlar ve notlar
- Dosya içerisine eklenen komutlar için yorum ve not oluşturma
Grup Komutları Nasıl Kullanılır
Grup komutları, net ve kesin ifadelerden oluşan, yazım hatası yapılmaması gereken ya da var olmayan sayfa ya da dizinlerin komutlarının yer almadığı dosyalardır. Yine komutlar eklenirken büyük-küçük harf ayrımı yapılmaz ama komutla belirtilen dizin veya URL adlarında büyük, küçük harf ile özel karakter ayrımı yapılır. Yine komut sonrasında belirlenen disin, bölüm ya da URL kısmının nasıl adlandırıldığına dair değişim gösterebilir.
Grup komutlarına örnek olarak kullanılan maddelere kısaca bakacak olursak;
Dizin engelleme / izin verme: Web sitenize ait belirli bir dizinin taranmasını istemiyorsanız, komut satırını buna göre oluşturabilirsiniz.
Arama motoru engelleme / izin verme: Kullanıcı aracısı olan bu komut için sitenize hangi arama motorlarının gelip, gelemeyeceğini ekleyebilirsiniz.
Tarama gecikmesi belirtme: Web sitenizi belirlediğiniz süre zarfında maksimum miktarda taranmasını, bu süre dışında kalan sayfaların taranmamasını sağlayan komut çeşididir.
Sayfa engelleme / izin verme: Web sitenizdeki belirli bir sayfanın taranmasını istemiyorsanız, bu tip komut satırı oluşturabilirsiniz.
Grup dışı komut türleri, sitemap.xml dosyasının yerini belirten, yalnızca dosya URL’sinin doğru yazımı ile çalışan basit bir kullanıma sahiptir. Sitenizin taranabilmesi açısından arama motoru robotlarına en önemli bilgileri aktardığı için mutlaka sitemap.xml dosyası kullanılması gerekir. Çünkü arama motorları sitenizi tarama işlemine başlarken mutlaka robots.txt dosyasına ilk olarak bakarlar ve dosya içerisinde sitemap.xml dosyası bulunmazsa ciddi bir dezavantaj durumu oluşur.
Yorumlar ve notlar alanında, robots.txt dosyası içerisine site yöneticisi, tasarımcı, kullanıcıya ileteceğiniz bilgiler gibi arama motorlarının dikkate almadığı notlar iliştirebilirsiniz. Ancak notları yazarken ” # ” işaretinin kullanımına dikkat etmelisiniz. Örneğin, # Not: Tasarım dizini 3 gün sonra robot erişimine açık olacaktır. Yani # karakterinde sonra yazılanlar arama motorları tarafından dikkate alınmaz.
Robots.txt Nasıl Oluşturulur?
Robots.txt oluşturucu için ayrıca bazı hazır araçlar kullanabileceğiniz gibi, bu dosyayı kendiniz de oluşturarak, kök dizine ekleyebilirsiniz. Ancak ilk kez hazırlıyorsanız yine de “robots.txt generator” denilen hazır menülerden yardım alabilirsiniz.
Tüm bu bilgiler ışığında adım adım yeni bir robots.txt dosyası oluşturacak olursak ilk önce yeni bir metin belgesi açalım ve belgeyi robots.txt olarak adlandıralım. Bu dosya içerisinde temelde iki farklı değişken oluşturmalıyız. Bunlar:
Örnek 1:
User-agent: Arama botlarının adları yazılacak
Disallow: Arama botlarının izinlerini yazacağımız komutlar yer alacak.
Örneğin,
1 2 3 |
User-agent: * Allow: / |
Yukarıda arama botlarının isimleri yerine ” * ” işaretinin kullanılması tüm botlarca sitenizin istisnasız olarak indekslenmesine izin verilmesi anlamındadır.
Örnek 2:
1 2 3 |
User-agent: * Disallow: / |
Birinci satırda aslında tüm arama botlarına indeksleme için izin verilmesine rağmen; ikinci satırda ” Disallow / ” kodlamasının yapılması, site üzerinde tüm dosyaların taranmasına izin verilmediği anlamındadır. Eğer bu şekilde kullanılırsa, arama motoru botlarında sitenize ait hiç bir dosya taranmaz, dolayısıyla indekslenemez. Bunun dışında eğer şu şekilde kodlama yaparsanız, arama botları bu üç dosyayı indekslemezler.
1 2 3 4 5 6 7 |
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ |
Örnek 3:
1 2 3 |
User-agent: DeepCrawl Disallow: /private/ |
Bilindiği üzere sitenizi uzun süreli aralıklar ile ziyaret ederek, indekslenmesi için bilgi toplayan Google botu DeepCrawl’dır. Alt kısımda “private” adlı klasörü indekslememesi için bu bota komut verilmiştir.
Örnek 4:
1 2 3 |
User-agent: * Disallow: /directory/file.html |
Bu kod ile botların belirtilen dosyayı indekslemeyeceği ancak “directory” dizininde yer alan file.html hariç diğer dosyaları tarayabileceklerdir.
Örnek 5:
1 2 3 4 5 |
User-agent: * Allow: /file1/site.html Disallow: /file1/ |
Bu kodlama ile verilen komut, arama motoru botları dosya dizinindeki site.html dosyası hariç diğer dosyaları taramayacaktır.
Robots.txt Dizine Yükleme
Dilediğiniz tarzda komutları oluşturduktan sonra, sitenizin kök dizinine robots.txt dosyasını yükleyerek işlemi tamamlayabilirsiniz. Kullandığınız site WordPress tabanlı ise “robots.txt rewrite ” eklentisi dosya oluşturmada yardımcı olacaktır. Dosyanızı dizine kaydettikten sonra “www.sitenizinadı.uzantı.com/robots.txt” şeklinde arama yapın. Eğer “Google robots.txt test aracından izin verildi” uyarısını alırsanız dosya eklenmiş demektir.
Buna karşın en fazla görülen uyarılardan biri de Googlebot robots.txt dosyası tarafından engellendi uyarısı olmaktadır. Eğer robots.txt dosyasında css ve js dosyaları için disallow komutu yer alıyorsa, bu dosyalar Google botları tarafından engellenecektir. Eğer bu uyarı düzeltilmezse, botlar sitenizi düzgün şekilde okuyamayacağından indexsleme problemi yaşarsınız. Bunun için web sitenize ait tasarımı bozacak dosyaları Google botlarına engelleme komutlarını kaldırmalısınız.
Cevapla
Want to join the discussion?Feel free to contribute!