Rabu, 28 November 2012

Optimasi Search Engine Dengan robots.txt

Filled under: ,




Posted by yuwono / October, 31 2009
Muncul di halaman pertama search engine dengan topik yang sesuai dengan kata kunci adalah dambaan setiap pemilik web, tetapi hal ini tidak mudah sebab banyak hal yang harus dilakukan untuk bisa mengoptimalkan halaman sebuah web agar menjadi seperti apa yang diinginkan oleh search engine. Dalam artikel saya yang lalu sudah saya bahas mengenai cara mendaftar di Search engine dan cara membuat sitemap agar web mudah dibaca oleh search engine. Maka pada artike kali ini akan saya tulis sedikit mengenai cara membatasi search engine agar tidak sembarangan melakukan indeks sehingga ada batasan-batasan tertentu yang harus ditaati oleh spider = search engine crawler dalam menjalankan tugasnya untuk mengindeks suatu halaman web. Aturan tersebut ditulis dalam sebuah file yang dinamakan “robots.txt”.
Kebanyakan website atau blog mempunyai file dan folder yang tidak ada gunanya untuk diindek oleh mesin pencari seperti file gambar , file admin atau file yang anda anggap rahasia. Anda bisa membatasi spider untuk tidak mengindeks file tersebut dengan cara membuat sebuah file robots.txt. Untuk membuat file ini caranya sangat mudah anda hanya butuh notepad untuk menulis kode robots.txt. Contoh kodenya bisa dilihat seperti ini :
User-agent: *
Disallow: /images/
Disallow: /feed/
Arti kode itu adalah spider tidak boleh mengakses dan mengindeks isi dari direktori /images/ dan semua URL yang dimulai dengan /feed/.
Anda bisa copy paste kode dibawah ini untuk membuat file robots.txt

User-agent: Googlebot
Disallow: /log/*/trackback
Disallow: /log/*/feed
Disallow: /log/*/comments
Disallow: /log/*?*
Disallow: /log/*?
Disallow: /log/search
User-agent: *
Disallow: /cgi-bin/
Disallow: /log/wp-admin/
Disallow: /log/wp-includes/
Disallow: /log/wp-content/plugins/
Disallow: /log/wp-content/themes/
Disallow: /log/trackback
Disallow: /log/comments
Disallow: /log/feed
Atau anda bisa membuat robots.txt sesuai dengan keinginan anda menggunakan tool ini
Selanjutnya letakan file robots.txt di root directory web anda.
Penempatan lokasi dari Robot.txt harus ada didalam direktori utama = root directory karena disaat mesin pencari datang disitus anda, maka ia akan langsung menuju direktori utama contoh, http://webku.com/robots.txt dan jika search engine tidak menemukannya didalam root directory, maka mereka akan menyimpulkan bahwa situs anda tidak memiliki file robot.txt, kemudian search engine akan mengindex semua yang ia temukan selama meng-crawl situs anda dan jangan terkejut jika anda melihat seluruh isi situs dan file rahasia anda terindex dan ditampilkan pada search engine.
Apa yang saya tulis diatas adalah cara untuk membatasi spider search engine dan bukan sepenuhnya memproteksi file anda karena didalam dunia internet ada spider jahat dan spider baik sehingga sebaiknya anda tidak menaruh file rahasia anda di directory web anda. Spider baik akan segera mengerti begitu menemukan batasan yang tidak membolehkan dirinya untuk mengindeks tetapi bagi spider jahat maka batasan-batasan itu tidak ada artinya dan ini yang biasa dilakukan oleh para cyber crime.
Semoga artikel saya bermanfaat dan jika ada yang mau menambahkan silahkan kasih komentar.

0 komentar:

Posting Komentar

Blog Archive