Robots.txt là một tệp văn bản mà quản trị viên web tạo ra để hướng dẫn các rô bốt web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ. Tệp robots.txt là một phần của giao thức loại trừ rô bốt (REP), một nhóm các tiêu chuẩn web quy định cách rô bốt thu thập dữ liệu web, truy cập và lập chỉ mục nội dung cũng như phân phát nội dung đó cho người dùng. REP cũng bao gồm các chỉ thị như meta rô bốt , cũng như các hướng dẫn trên toàn trang, thư mục con hoặc trên toàn trang về cách các công cụ tìm kiếm xử lý các liên kết (chẳng hạn như “theo dõi” hoặc “nofollow”).
Trên thực tế, tệp robots.txt cho biết liệu một số tác nhân người dùng (phần mềm thu thập thông tin web) có thể hay không thể thu thập thông tin các phần của trang web. Các hướng dẫn thu thập thông tin này được chỉ định bằng cách "không cho phép" hoặc "cho phép" hành vi của một số tác nhân người dùng (hoặc tất cả).
Công cụ tìm kiếm có hai công việc chính:
Để thu thập dữ liệu các trang web, các công cụ tìm kiếm đi theo các liên kết để đi từ trang này sang trang khác - cuối cùng là thu thập thông tin trên nhiều tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi được gọi là "thêu thùa".
Sau khi đến một trang web nhưng trước khi xem xét nó, trình thu thập thông tin tìm kiếm sẽ tìm kiếm tệp robots.txt. Nếu nó tìm thấy một tệp, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn hành động tiếp theo của trình thu thập thông tin trên trang web cụ thể này. Nếu tệp robots.txt không chứa bất kỳ lệnh nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.
Tệp robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào một số khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của mình (!!), nhưng có một số trường hợp mà tệp robots.txt có thể rất hữu ích.
Một số trường hợp sử dụng phổ biến bao gồm:
Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, bạn có thể không cần tệp robots.txt.
Mặc định - Tất cả Robots: Cho phép
Crawl-Delay: Không độ trễ
Sitemap: Thêm vào nếu không có, có thể tạo sitemap tại đây
Robots tìm kiếm: Mặc định (Cho phép)
Thư mục bị hạn chế: Nếu là wordpress bạn có thể thêm như bên dưới:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Cuối cùng nhấn Create and Save as Robots.txt để tạo file.