Robots.txt คือ? – วิธีเขียน file Robots.txt
Robots.txt คือ file ที่ bot จาก Search Engin ต่างๆจะเข้ามาอ่านอันดับแรกสุดของเว็บเรา ยกตัวอย่างเช่น Googlebot ของ Google โดยปกติถ้าไม่มี robots.txt bot จาก Search Engin ต่างๆก็จะกรูกันเข้ามา Crawl ข้อมูลในเว็บของเราทั้งหมดแต่ถ้ามีผู้ไม่ประสงค์ดีใช้ Search Engin Hack ข้อมูลล่ะจะทำยังไงในเมื่อ bot ได้ Crawl ข้อมูลในเว็บไปหมดแล้ว?
นี่ล่ะเป็นที่มาทำให้เราต้องมี file robots.txt เพราะเราสามารถกำหนดให้อนุญาต หรือไม่ให้อนุญาต เข้ามาเก็บข้อมูลในโฟล์เดอร์หรือ file ไหนบ้าง ซึ่งในการทำเว็บไซต์นั้นการเขียน file robots.txt มีความสำคัญอย่างมากในเรื่องของความปลอดภัยและการทำ SEO(Search Engine Optimization) คือบางครั้งเราไม่ต้องการให้บรรดา search engin เข้ามาเก็บค่าต่าง ๆ ในโฟล์เดอร์ที่เราต้องการให้เป็นความลับ หรือการค้นหาข้อมูลของเว็บไซต์เราบางหน้า ก็สามารถจำกัดการเข้ามาเก็บค่าดัชนีเว็บไซต์เราได้ แต่ปัญหาในการที่ bot เข้ามาเก็บไฟลเดอร์ หรือ file ที่เราไม่ต้องการให้ bot เจอเช่น โฟลเดอร์ Admin คุณลองคิดดูถ้าเรามีข้อมูลลับๆต่าง ไม่ว่าจะเป็น ที่อยู่ เบอร์โทร ข้อมูลส่วนตัว ที่เราไม่ให้ต้องการให้ข้อมูลเหล่านี้ติดบน search Engine
A Standard for robots.txt
เรามาดูความหมายของชุดคำสั่งพื้นฐานกันนะครับ
User-agent: Googlebot Disallow: /
จากชุดคำสั่งด้านบน
User-agent: คือการระบุชื่อของ bot ที่ต้องการอณุญาตให้สามารถเข้าระบบของเราได้บ้างในที่นี้ระบุเป็น Googlebot ก็คือการอณุญาตให้ bot ของ google สามารถเข้าระบบได้นั้นเอง แต่ถ้าระบุเป็นเครื่องหมาย * ก็คือไม่ระบุชื่อ bot ซึ่งก็หมายถึง bot ทุกนะครับ
Disallow: คือ การอนุญาติว่า ให้เข้าไปได้ หรือไม่ได้ ในที่นี้ระบุเป็น เครื่องหมาย / แทนการไม่อนุญาติครับ
มาดูตัวอย่าง robots.txt ชุดคำสั่งที่นิยมใช้กันนะครับ
1. ถ้าต้องการไม่ให้ robots ทุกตัวเข้ามาเก็บ index เว็บเรา
User-agent: * Disallow: /
2. ถ้าไม่ต้องการให้ bot เข้าไปเก็บโฟลเดอร์รูป และโฟลเดอร์ admin
User-agent: * Disallow: /images Disallow: /folder/admin
และตั้งแต่ปี 2551 ที่ผ่านมา robots.txt สามารถกำหนดคำสั่ง sitemap ได้แล้ว เพื่อกำหนดให้ bot ไปเก็บข้อมูลที่ sitemap ของเว็บ เพื่อเป็นการบอกให้ bot ไปเก็บข้อมุลที่ file sitemap ทำให้ bot เก็บข้อมูลได้ง่ายและเร็วขึ้นด้วยนะครับ
ตัวอย่าง
Sitemap: http://www.something.com/sitemap.xml.gz
เอาล่ะนี่ก็คือ script พื้นฐานของการเขียน script file robots.txt โดยทั่วๆไปจะใช้ลักษณะนี้นะครับถ้าต้องการหาข้อมูลหรือรายละเอียดของ script ขั้น advance ก็แนะนำ ที่นี่ครับ www.robotstxt.org
How to create robots.txt
เครื่องมือที่ใช้ในการสร้าง file robots.txt หลักๆเลยก็คือ notepad แต่ถ้าอยากได้สะดวกกว่านั้นก็มีนะครับ มีเครื่องมือในการช่วยสร้างและตรวจสอบ file robot ที่่เราสร้างมาแนะนำครับ ซึ่งก็คือ webmaster Tools ของ Google นั้นเองซึ่งสามารถขอสมัครใช้งานได้ง่ายๆเพียงมี google account ครับ
เลือกที่ menu Helth > Blocked URLs นะครับ
และนี่ก็คือหน้าตาของ webmaster tools ที่ใช้สำหรับทดสอบ script robots ที่เราสร้างขึ้นนะครับว่าทำงานได้ไหมโดยทดสอบภายใต้เงื่อนไขของ google นะครับและเมื่อใช้ได้ก็ copy script ไป save เป็น robots.txt file นะครับ
และนี่ก็คือเครื่องมือสำหรับการสร้าง script robots อีกตัวนะครับ ใช้ง่ายมากๆจากที่นี่ครับ mcanerinrobots.txt checker
เป็นเครื่องมือในการตรวจสอบว่า robots.txt ที่เราสร้างขึ้นมานั้นมัน work หรือทำงานได้หรือไม่และที่เด็กกว่านั้นยังสามารถวิเคราะห์ได้ด้วยว่าผิดตรงไหนเพราะอะไร เก๋อ่ะ วิธีใช้ก็ง่ายๆ Simple มากๆ สามารถไปดูได้ที่นี่ครับ RobotsChecker
Robots Database
ก็คือแหล่งที่รวบรวม list ชื่อของ bot หรือ User-Agents ซึ่งมีกว่า 984,191 User Agents! เยอะเวอร์ สามารถไปดูได้ที่นี่ครับ botsvsbrowsers
สำหรับการสร้าง file robots.txt นี่เป็นเพียงส่วนหนึ่งในการทำ SEO ที่ผมคิดว่าเป็นพื้นฐานที่สำคัญมากๆอย่างหนึ่งเลยล่ะครับหวังว่าคงเป็นประโยชน์กับเพื่อนๆบ้างนะครับ และคราวหน้าผมจะหาเทคนิคการทำ SEO มาแนะนำอีกนะครับ
Robots.txt คือ? - วิธีเขียน file Robots.txt,
Leave a Reply
You must be logged in to post a comment.