Robots.txt คือ? – วิธีเขียน file Robots.txt

VN:F [1.9.22_1171]
Rating: 5.0/5 (1 vote cast)

robots_disallow

Robots.txt คือ? – วิธีเขียน file  Robots.txt

     Robots.txt คือ file ที่  bot จาก Search Engin ต่างๆจะเข้ามาอ่านอันดับแรกสุดของเว็บเรา  ยกตัวอย่างเช่น Googlebot ของ Google โดยปกติถ้าไม่มี robots.txt bot จาก Search Engin ต่างๆก็จะกรูกันเข้ามา Crawl ข้อมูลในเว็บของเราทั้งหมดแต่ถ้ามีผู้ไม่ประสงค์ดีใช้ Search Engin Hack ข้อมูลล่ะจะทำยังไงในเมื่อ bot ได้ Crawl ข้อมูลในเว็บไปหมดแล้ว?

     นี่ล่ะเป็นที่มาทำให้เราต้องมี file robots.txt เพราะเราสามารถกำหนดให้อนุญาต หรือไม่ให้อนุญาต เข้ามาเก็บข้อมูลในโฟล์เดอร์หรือ file ไหนบ้าง ซึ่งในการทำเว็บไซต์นั้นการเขียน file robots.txt มีความสำคัญอย่างมากในเรื่องของความปลอดภัยและการทำ SEO(Search Engine Optimization) คือบางครั้งเราไม่ต้องการให้บรรดา search engin เข้ามาเก็บค่าต่าง ๆ ในโฟล์เดอร์ที่เราต้องการให้เป็นความลับ หรือการค้นหาข้อมูลของเว็บไซต์เราบางหน้า ก็สามารถจำกัดการเข้ามาเก็บค่าดัชนีเว็บไซต์เราได้ แต่ปัญหาในการที่ bot เข้ามาเก็บไฟลเดอร์ หรือ  file ที่เราไม่ต้องการให้ bot เจอเช่น โฟลเดอร์ Admin คุณลองคิดดูถ้าเรามีข้อมูลลับๆต่าง ไม่ว่าจะเป็น ที่อยู่ เบอร์โทร ข้อมูลส่วนตัว ที่เราไม่ให้ต้องการให้ข้อมูลเหล่านี้ติดบน search Engine

     A Standard for robots.txt

เรามาดูความหมายของชุดคำสั่งพื้นฐานกันนะครับ

User-agent: Googlebot
Disallow: /

จากชุดคำสั่งด้านบน

User-agent:  คือการระบุชื่อของ bot ที่ต้องการอณุญาตให้สามารถเข้าระบบของเราได้บ้างในที่นี้ระบุเป็น Googlebot ก็คือการอณุญาตให้ bot ของ google สามารถเข้าระบบได้นั้นเอง แต่ถ้าระบุเป็นเครื่องหมาย * ก็คือไม่ระบุชื่อ bot ซึ่งก็หมายถึง bot ทุกนะครับ

Disallow: คือ การอนุญาติว่า ให้เข้าไปได้ หรือไม่ได้ ในที่นี้ระบุเป็น เครื่องหมาย / แทนการไม่อนุญาติครับ

มาดูตัวอย่าง robots.txt ชุดคำสั่งที่นิยมใช้กันนะครับ
1. ถ้าต้องการไม่ให้ robots ทุกตัวเข้ามาเก็บ index เว็บเรา

User-agent: *
Disallow: /

2. ถ้าไม่ต้องการให้ bot เข้าไปเก็บโฟลเดอร์รูป และโฟลเดอร์ admin

User-agent: *
Disallow: /images
Disallow: /folder/admin

     และตั้งแต่ปี 2551 ที่ผ่านมา robots.txt สามารถกำหนดคำสั่ง sitemap ได้แล้ว เพื่อกำหนดให้ bot ไปเก็บข้อมูลที่ sitemap ของเว็บ เพื่อเป็นการบอกให้ bot ไปเก็บข้อมุลที่ file sitemap ทำให้ bot เก็บข้อมูลได้ง่ายและเร็วขึ้นด้วยนะครับ
ตัวอย่าง

Sitemap: http://www.something.com/sitemap.xml.gz

เอาล่ะนี่ก็คือ script พื้นฐานของการเขียน script file robots.txt โดยทั่วๆไปจะใช้ลักษณะนี้นะครับถ้าต้องการหาข้อมูลหรือรายละเอียดของ script ขั้น advance ก็แนะนำ ที่นี่ครับ www.robotstxt.org

     How to create robots.txt

     เครื่องมือที่ใช้ในการสร้าง file robots.txt หลักๆเลยก็คือ notepad แต่ถ้าอยากได้สะดวกกว่านั้นก็มีนะครับ มีเครื่องมือในการช่วยสร้างและตรวจสอบ file robot ที่่เราสร้างมาแนะนำครับ ซึ่งก็คือ webmaster Tools ของ Google นั้นเองซึ่งสามารถขอสมัครใช้งานได้ง่ายๆเพียงมี google account ครับ

webmaster_tools

webmaster tools

เลือกที่ menu Helth > Blocked URLs นะครับ

webmaster_tools_form_web

webmaster tools form test

     และนี่ก็คือหน้าตาของ webmaster tools ที่ใช้สำหรับทดสอบ script robots ที่เราสร้างขึ้นนะครับว่าทำงานได้ไหมโดยทดสอบภายใต้เงื่อนไขของ google นะครับและเมื่อใช้ได้ก็ copy script ไป save เป็น robots.txt file นะครับ

robots_generator_web

robots generator

และนี่ก็คือเครื่องมือสำหรับการสร้าง script robots อีกตัวนะครับ ใช้ง่ายมากๆจากที่นี่ครับ mcanerin

     robots.txt checker

robots_checker_web

robots checker

     เป็นเครื่องมือในการตรวจสอบว่า robots.txt ที่เราสร้างขึ้นมานั้นมัน work หรือทำงานได้หรือไม่และที่เด็กกว่านั้นยังสามารถวิเคราะห์ได้ด้วยว่าผิดตรงไหนเพราะอะไร เก๋อ่ะ วิธีใช้ก็ง่ายๆ Simple มากๆ สามารถไปดูได้ที่นี่ครับ RobotsChecker

     Robots Database

ก็คือแหล่งที่รวบรวม list ชื่อของ bot หรือ User-Agents ซึ่งมีกว่า 984,191 User Agents! เยอะเวอร์ สามารถไปดูได้ที่นี่ครับ botsvsbrowsers

     สำหรับการสร้าง file robots.txt นี่เป็นเพียงส่วนหนึ่งในการทำ SEO ที่ผมคิดว่าเป็นพื้นฐานที่สำคัญมากๆอย่างหนึ่งเลยล่ะครับหวังว่าคงเป็นประโยชน์กับเพื่อนๆบ้างนะครับ และคราวหน้าผมจะหาเทคนิคการทำ SEO มาแนะนำอีกนะครับ

VN:F [1.9.22_1171]
Rating: 5.0/5 (1 vote cast)
VN:F [1.9.22_1171]
Rating: +1 (from 1 vote)
Robots.txt คือ? - วิธีเขียน file Robots.txt, 5.0 out of 5 based on 1 rating

About admin