Robots.txt Generator


Default - All Robots are:  
    
Crawl-Delay:
    
Sitemap: (leave blank if you don't have) 
     
Search Robots: Google
  Google Image
  Google Mobile
  MSN Search
  Yahoo
  Yahoo MM
  Yahoo Blogs
  Ask/Teoma
  GigaBlast
  DMOZ Checker
  Nutch
  Alexa/Wayback
  Baidu
  Naver
  MSN PicSearch
   
Restricted Directories: The path is relative to root and must contain a trailing slash "/"
 
 
 
 
 
 
   



Now, Create 'robots.txt' file at your root directory. Copy above text and paste into the text file.


About Robots.txt Generator

Tệp robots.txt là gì?

Robots.txt là một tệp văn bản mà quản trị viên web tạo ra để hướng dẫn các rô bốt web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ. Tệp robots.txt là một phần của giao thức loại trừ rô bốt (REP), một nhóm các tiêu chuẩn web quy định cách rô bốt thu thập dữ liệu web, truy cập và lập chỉ mục nội dung cũng như phân phát nội dung đó cho người dùng. REP cũng bao gồm các chỉ thị như meta rô bốt , cũng như các hướng dẫn trên toàn trang, thư mục con hoặc trên toàn trang về cách các công cụ tìm kiếm xử lý các liên kết (chẳng hạn như “theo dõi” hoặc “nofollow”).

Trên thực tế, tệp robots.txt cho biết liệu một số tác nhân người dùng (phần mềm thu thập thông tin web) có thể hay không thể thu thập thông tin các phần của trang web. Các hướng dẫn thu thập thông tin này được chỉ định bằng cách "không cho phép" hoặc "cho phép" hành vi của một số tác nhân người dùng (hoặc tất cả).

Robots.txt hoạt động như thế nào?

Công cụ tìm kiếm có hai công việc chính:

  • Thu thập thông tin trên web để khám phá nội dung;
  • Lập chỉ mục nội dung đó để nó có thể được cung cấp cho những người tìm kiếm đang tìm kiếm thông tin.

Để thu thập dữ liệu các trang web, các công cụ tìm kiếm đi theo các liên kết để đi từ trang này sang trang khác - cuối cùng là thu thập thông tin trên nhiều tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi được gọi là "thêu thùa".

Sau khi đến một trang web nhưng trước khi xem xét nó, trình thu thập thông tin tìm kiếm sẽ tìm kiếm tệp robots.txt. Nếu nó tìm thấy một tệp, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn hành động tiếp theo của trình thu thập thông tin trên trang web cụ thể này. Nếu tệp robots.txt không chứa bất kỳ lệnh nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.

Tại sao bạn cần robots.txt?

Tệp robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào một số khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của mình (!!), nhưng có một số trường hợp mà tệp robots.txt có thể rất hữu ích.

Một số trường hợp sử dụng phổ biến bao gồm:

  • Ngăn nội dung trùng lặp xuất hiện trong SERP (lưu ý rằng meta rô bốt thường là lựa chọn tốt hơn cho việc này)
  • Giữ toàn bộ các phần của trang web ở chế độ riêng tư (ví dụ: trang web dàn dựng của nhóm kỹ sư của bạn)
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP công khai
  • Chỉ định vị trí của (các) sơ đồ trang web
  • Ngăn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
  • Chỉ định độ trễ thu thập thông tin để ngăn máy chủ của bạn bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung cùng một lúc

Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, bạn có thể không cần tệp robots.txt.

Cách tạo tệp robots.txt

Mặc định - Tất cả Robots: Cho phép

Crawl-Delay: Không độ trễ

Sitemap: Thêm vào nếu không có, có thể tạo sitemap tại đây

Robots tìm kiếm: Mặc định (Cho phép)

Thư mục bị hạn chế: Nếu là wordpress bạn có thể thêm như bên dưới:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Cuối cùng nhấn Create and Save as Robots.txt để tạo file.