SEO: Memahami Robots.txt dalam Website

Pada tahun 1994, sebuah protokol yang disebut REP (Robots Exclusion Standard Protocol) diluncurkan.

Protokol ini menetapkan bahwa semua crawler mesin pencarian (user-agents) harus mencari file robots.txt di direktori dasar domain Anda terlebih dahulu dan membaca petunjuk yang ada di dalamnya. Dengan begitu, bot dapat mulai mengindeks halaman web Anda.

File tersebut harus terletak langsung di direktori dasar domain Anda dan harus ditulis dengan huruf kecil karena bot membaca file robots.txt yang instruksinya peka terhadap huruf besar atau kecil.

Sayangnya, tidak semua robot mesin pencari dapat mengikuti aturan ini. Setidaknya file robot.txt berfungsi dengan baik pada mesin pencari seperti Bing, Yahoo, dan Google. Robot pencari yang ada di mesin pencarian tersebut secara ketat akan mengikuti instruksi dari REP dan robots.txt.

Bagi yang ingin melakukan crawling dan indexing pada SEO perlu mengetahui secara pasti kegunaan dari file ini. Untuk itu, simak penjelasannya di artikel berikut ini.

Apa itu Robots.txt?

Robots.txt adalah sebuah file yang berisi sekumpulan instruksi untuk menjalankan bot mesin pencari.

File robots.txt ditujukan untuk mengelola aktivitas bot seperti crawler web karena bot yang buruk tidak akan mengikuti petunjuk atau perintah yang telah diberikan.

File robots.txt layaknya tata tertib yang ada di kehidupan manusia. Tata tertib tersebut tidak memiliki kekuatan untuk menegakkan aturan yang tercantum, tetapi bot yang "baik" akan selalu mengikuti aturan. Sementara, yang "buruk" kemungkinan besar akan melanggar aturan tersebut dan segera diberikan penalti.

Bot adalah sebuah program komputer otomatis yang berinteraksi dengan situs web dan aplikasi. Terdapat bot yang baik dan bot yang buruk, khusus salah satu jenis bot yang baik dikenal sebagai bot crawler web. Bot ini akan melakukan "crawling" pada halaman situs web dan mengindeks konten sehingga laman tersebut dapat muncul di halaman hasil mesin pencari. File robots.txt membantu mengelola aktivitas crawler web ini agar tidak membebani server web yang sedang menghosting situs web atau mengindeks laman yang tidak ditujukan untuk ditampilkan untuk publik.

Cara Kerja Robots.txt

File robots.txt hanyalah file teks tanpa kode markup HTML (karenanya ekstensinya berupa .txt). File robots.txt dihosting di server web seperti file lainnya yang berada di situs web. Faktanya, file robots.txt pada situs web tertentu biasanya dapat dilihat dengan mengetikkan URL beranda situs kemudian menambahkan /robots.txt, seperti contoh berikut: https://www.situswebAnda.com/robots.txt.

File tersebut tidak dihubungkan ke laman lain yang berada di situs tersebut. Jadi, pengguna tidak akan menemukannya, tetapi sebagian besar bot crawler web akan mencari file ini terlebih dahulu sebelum melakukan crawling pada situs tersebut.

Meskipun file robots.txt memberikan petunjuk bagi bot, file tersebut hanya bersifat arahan atau petunjuk bagi bot. Bot yang baik, seperti web crawler atau bot news feed, akan mencoba mengunjungi file robots.txt terlebih dahulu sebelum melihat halaman lain di domain dan akan mengikuti petunjuknya. Bot yang buruk akan mengabaikan file robots.txt atau akan memprosesnya untuk menemukan halaman web yang terlarang.

Bot crawler web akan mengikuti sekumpulan petunjuk spesifik di file robots.txt ini. Jika ada perintah yang kontradiktif dalam file tersebut, bot akan mengikuti perintah yang lebih terperinci.

Satu hal penting yang perlu diperhatikan adalah semua subdomain membutuhkan file robots.txt-nya sendiri. Misalnya, jika Anda memiliki situs bernama www.situswebAnda.com memiliki filenya sendiri, semua subdomain yang dimiliki Anda (blog.situswebAnda.com, community.situswebAnda.com, dll.) membutuhkannya penggunaan robot.txt juga.

Manfaat Penggunaan Robots.txt

Sebagian besar situs web tidak membutuhkan file robots.txt. Hal itu karena Google secara otomatis biasanya dapat menemukan dan mengindeks semua halaman penting di situs Anda. Google tidak akan mengindeks halaman yang dirasa tidak penting atau halaman yang menjadi duplikat dari halaman lain.

Meskipun begitu, ada 3 alasan utama mengapa Anda perlu menggunakan file robots.txt.

1. Memblokir Halaman Non-Publik: Terkadang Anda pasti memiliki halaman di situs yang tidak ingin Anda indeks. Misalnya, Anda memiliki halaman yang masih dalam tahap pengembangan awal, atau untuk halaman login. Halaman ini tetap diperlukan di situs web, tetapi Anda tidak ingin sembarang orang untuk berkunjung kes ana. Ini adalah kasus di mana Anda akan menggunakan robots.txt untuk memblokir laman ini dari crawler dan bot mesin pencarian.

2. Maksimalkan Crawler Budget: Jika Anda mengalami kesulitan untuk mengindeks semua laman situs, mungkin Anda telah mengalami masalah crawler budget. Dengan memblokir halaman yang tidak penting menggunakan robots.txt, Google bot dapat mengalihkan pekerjaannya untuk crawl budget Anda pada halaman yang lebih penting.

3. Mencegah Pengindeksan pada Sumber Daya Lainnya: Menggunakan perintah meta dapat bekerja sebaik Robots.txt untuk mencegah suatu halaman untuk diindeks. Namun, perintah meta tidak dapat berfungsi dengan baik untuk digunakan pada sumber daya multimedia, seperti PDF dan file gambar. Di situlah file robots.txt berperan.

Pada intinya, file robots.txt akan memberi tahu spider mesin pencari untuk tidak crawling pada halaman tertentu di situs web Anda.

Anda dapat memeriksa berapa banyak halaman yang telah Anda indeks menggunakan Google Search Console. Jika angkanya cocok dengan jumlah halaman yang ingin Anda indeks, Anda tidak perlu repot menggunakan file robots.txt. Namun, jika jumlahnya lebih tinggi dari yang Anda harapkan (terutama jika Anda melihat URL tersebut seharusnya tidak boleh diindeks), sekarang saatnya membuat file robots.txt untuk situs Anda.

Cara Membuat File Robots.txt

Jika saat ini Anda tidak memiliki file robots.txt, disarankan untuk membuatnya sesegera mungkin. Untuk melakukannya, Anda perlu melakukan sejumlah hal berikut ini:

• Buat file teks baru dan beri nama "robots.txt" - Gunakan teks editor seperti program Notepad di PC Windows atau TextEdit bagi yang menggunakan Mac IOS, kemudian pilih "Save As" file yang dipisahkan teks dan pastikan ekstensi file tersebut bernama ".txt".

• Unggah ke root directory situs web Anda – Folder tingkat dasar ini biasa disebut sebagai "htdocs" atau "www" yang membuatnya muncul tepat setelah nama domain Anda.

• Buat file robots.txt untuk setiap subdomain – Hal ini dilakukan hanya jika Anda menggunakan jenis subdomain apapun.

• Lakukan Pengujian - Periksa file robots.txt dengan memasukkan kalimat robots.txt ke dalam bilah alamat browser. Contohnya: situswebAnda.com/robots.txt

Tujuan penggunaan Robots.txt bukan untuk menyembunyikan secure page yang ada di situs web Anda. Oleh karena itu, lokasi "admin" atau halaman pribadi yang berada di situs Anda tidak boleh disertakan dalam file robots.txt karena justru akan menampilkan lokasinya kepada pengguna lain. Jika Anda ingin mencegah robot untuk mengakses konten pribadi apapun yang ada di situs web Anda dengan aman, Anda perlu melindungi area penyimpanannya dengan menggunakan kata sandi (password).

File robots.txt dirancang untuk bertindak hanya sebagai panduan bagi robot web dan tidak semuanya akan mematuhi instruksi Anda.

Tanpa file robots.txt, mesin pencari akan bebas dalam melakukan crawling dan mengindeks apapun yang mereka temukan di situs web. Penggunaan robots.txt bagus untuk sebagian besar situs web, tetapi dengan menggunakan file tersebut setidaknya dapat menunjukkan di mana letak XML sitemap Anda sehingga mesin pencarian dapat dengan cepat menemukan konten terbaru di situs web Anda, serta mengoptimalkan crawling budget. (*)

*Sumber: