Apa itu Robots.txt : Definisi, Fungsi dan Cara Membuatnya

Mengapa Google tidak mengindeks semua halaman website Anda? Jawabannya mungkin ada di file robots.txt.

Robots.txt Adalah

Robots.txt adalah file teks yang memberitahu Google halaman mana yang boleh dan tidak boleh dikunjungi di website Anda. File ini ditempatkan di root domain (contoh: namawebsite.com/robots.txt).

Fungsi utama: mengontrol akses crawler Google agar fokus pada halaman penting dan mengabaikan halaman yang tidak perlu diindeks.

Fungsi Robots.txt

1. Menghemat Crawl Budget Google punya “jatah” terbatas untuk crawl website Anda. Robots.txt membantu mengarahkan Google ke halaman penting saja.

2. Blokir Halaman Tidak Penting

Halaman admin
Halaman checkout
File CSS/JS
Halaman duplikat

3. Mencegah Indexing yang Tidak Diinginkan Halaman yang sedang dalam development atau tidak siap untuk publik.

File pribadi

Cara Kerja Robots.txt

Ketika bot mesin pencari mengunjungi website, langkah pertama yang dilakukannya adalah mencari file robots.txt di root domain (misalnya, www.example.com/robots.txt). Bot kemudian menafsirkan instruksi dalam file tersebut sebelum melanjutkan crawling.

Penting untuk dicatat bahwa robots.txt bersifat directive (petunjuk), bukan enforced rules (aturan yang dipaksakan). Bot baik biasanya akan mematuhi instruksi, tetapi bot jahat dapat mengabaikannya. Itulah mengapa robots.txt tidak boleh digunakan sebagai mekanisme keamanan untuk konten sensitif.

Syntax Dasar Robots.txt

Robots.txt menggunakan syntax sederhana yang terdiri dari beberapa perintah utama:

User-agent

Menentukan bot spesifik yang ditargetkan instruksi:

User-agent: Googlebot

Wildcard asterisk (*) digunakan untuk menargetkan semua bot:

User-agent: *

Disallow

Menentukan path yang tidak boleh diakses crawler:

Disallow: /admin/

Path kosong berarti tidak ada pembatasan:

Disallow:

Allow

Digunakan untuk memberikan pengecualian pada direktori yang di-disallow:

Disallow: /folder/
Allow: /folder/penting/

Sitemap

Menunjukkan lokasi sitemap XML website:

Sitemap: https://www.example.com/sitemap.xml

Crawl-delay

Menentukan jeda antara request crawler (tidak didukung semua mesin pencari):

Crawl-delay: 10

Contoh File Robots.txt

Berikut adalah contoh file robots.txt standar yang bisa Anda adaptasi:

# Semua bot mesin pencari
User-agent: *
Disallow: /admin/
Disallow: /checkout/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Khusus Googlebot
User-agent: Googlebot
Disallow: /old-content/
Disallow: /print-pages/

# Khusus Googlebot-Image
User-agent: Googlebot-Image
Allow: /images/

# Lokasi Sitemap
Sitemap: https://www.example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap-products.xml

Cara Membuat dan Mengimplementasikan Robots.txt

Berikut langkah-langkah membuat dan mengimplementasikan robots.txt yang optimal:

1. Audit Struktur Website

Sebelum membuat robots.txt:

Identifikasi halaman yang tidak perlu diindeks
Tentukan area yang harus dilindungi dari crawling
Pertimbangkan halaman yang mungkin membuang crawl budget

2. Buat File Teks Sederhana

Gunakan editor teks biasa (Notepad, VS Code, dll)
Simpan dengan nama “robots.txt”
Gunakan syntax yang benar seperti contoh di atas

3. Upload ke Root Directory

Upload file ke root domain website Anda
Pastikan dapat diakses di www.yourdomain.com/robots.txt
Untuk CMS seperti WordPress, plugin SEO biasanya menyediakan cara mudah mengedit robots.txt

4. Verifikasi dengan Testing Tool

Setelah mengimplementasikan:

Gunakan Google Search Console robots.txt Tester
Periksa apakah sintaks sudah benar
Test URL tertentu untuk memastikan instruksi berfungsi sesuai harapan

Best Practices Robots.txt untuk SEO

Untuk hasil optimal, ikuti praktik terbaik berikut saat mengonfigurasi robots.txt:

1. Jangan Blokir Resource Penting

Pastikan Anda tidak memblokir:

CSS dan JavaScript files (penting untuk rendering)
Gambar yang ingin muncul di Google Image Search
Halaman penting yang ingin diindeks

2. Gunakan Perintah Spesifik untuk Bot Tertentu

Bot berbeda memiliki kebutuhan berbeda:

Buat aturan khusus untuk bot tertentu (Googlebot, Bingbot, dll)
Berikan akses berbeda sesuai kebutuhan (misalnya, Googlebot-Image untuk gambar)
Pertimbangkan bagaimana setiap bot akan memanfaatkan konten Anda

3. Kombinasikan dengan Meta Robots

Robots.txt mengontrol crawling, bukan pengindeksan. Untuk kontrol penuh:

Gunakan meta robots tag untuk halaman yang di-crawl tapi tidak boleh diindeks
Kombinasikan robots.txt dengan canonical tags untuk mengatasi konten duplikat
Ingat meta robots tag hanya berfungsi jika halaman di-crawl

4. Sertakan Sitemap

Selalu sertakan lokasi sitemap dalam robots.txt:

Membantu crawler menemukan semua konten penting
Memudahkan pengindeksan konten baru
Memberikan gambaran struktur website kepada crawler

5. Monitor Perubahan Secara Regular

Robots.txt bukanlah “set and forget”:

Review secara berkala terutama setelah perubahan website
Monitor Crawl Stats di Google Search Console
Perhatikan perubahan algoritma atau pedoman mesin pencari

Kesalahan Umum Robots.txt yang Harus Dihindari

Beberapa kesalahan umum yang sering ditemui dalam implementasi robots.txt:

1. Memblokir Seluruh Website

Syntax berikut akan memblokir seluruh website dari crawling:

User-agent: *
Disallow: /

Ini berbahaya untuk SEO kecuali website dalam pengembangan.

2. Sintaks yang Salah

Robot mesin pencari sensitif terhadap sintaks. Kesalahan umum meliputi:

Spasi yang salah
Typo pada direktif
Case sensitivity issue (Disallow vs disallow)
Missing colons atau format yang salah

3. Over-Blocking

Memblokir terlalu banyak konten bisa merugikan SEO:

Halaman yang seharusnya diindeks tidak terlihat
Resource penting seperti CSS/JS diblokir
Directory penting diblokir secara tidak sengaja

4. Mengandalkan Robots.txt untuk Privasi

Jangan gunakan robots.txt untuk konten sensitif:

File tetap dapat diakses langsung jika URL diketahui
Data penting harus dilindungi dengan authentication
Informasi sensitif harus diamankan dengan metode yang lebih kuat

Robots.txt untuk Platform CMS Populer

Berikut contoh konfigurasi untuk beberapa platform CMS populer:

WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?*

Sitemap: https://www.example.com/sitemap_index.xml

WooCommerce (tambahan untuk WordPress)

Disallow: /*?add-to-cart=*
Disallow: /*?filtering=*
Disallow: /*?filter=*
Disallow: /*?orderby=*
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/

Shopify

User-agent: *
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /40865103/checkouts
Disallow: /40865103/orders
Disallow: /carts
Disallow: /account
Disallow: /collections/*+*
Disallow: /collections/*%2B*
Disallow: /collections/*%2b*
Disallow: /blogs/*+*
Disallow: /blogs/*%2B*
Disallow: /blogs/*%2b*
Disallow: /*?*
Disallow: /*&*
Disallow: /*+*
Disallow: /*%2B*
Disallow: /*%2b*
Disallow: /policies/
Allow: /policies/privacy-policy
Allow: /policies/terms-of-service
Allow: /policies/shipping-policy
Allow: /policies/refund-policy

Sitemap: https://www.example.com/sitemap.xml

Kesimpulan

Robots.txt adalah “rambu lalu lintas” untuk Google di website Anda. File sederhana ini membantu mengoptimalkan crawl budget dan memastikan halaman penting diindeks terlebih dahulu.

Langkah mudah:

Buat file robots.txt di root domain
Blokir halaman tidak penting (admin, checkout)
Tambahkan sitemap URL
Test di Google Search Console

Ingat: robots.txt bukan untuk keamanan, hanya untuk mengatur akses crawler.