CẨM NANG  Cẩm nang SEO

File robots.txt là gì? Cách tạo và tối ưu file robots.txt chuẩn seo

14:13 | 24/10/2023

Muốn SEO hiệu quả, website bạn không thể thiếu file robots.txt. Đây là một file có vai trò quan trọng trong việc quản lý các công cụ tìm kiếm thu thập dữ liệu trên trang web của bạn. Trong bài viết này, Vinalink sẽ giới thiệu tới bạn A-Z về file robots.txt là gì, các thuật ngữ liên quan và cách tạo - tối ưu hóa chúng sao cho chuẩn nhất. 

Cùng tìm hiểu nhé!

1. File robots.txt là gì?

File robots.txt là một tệp văn bản txt đơn giản đóng vai trò quan trọng trong việc quản lý quá trình thu thập dữ liệu của công cụ tìm kiếm trên trang web của bạn. Loại tệp này quy định rõ cho robot của các công cụ tìm kiếm biết được những URL nào bạn muốn hoặc không muốn được tạo chỉ mục.

robots txt là gì 1


Tuy vậy, theo Google, chức năng chính của tệp robots.txt không phải là để ẩn trang web khỏi trong mắt công cụ tìm kiếm, mà là để kiểm soát lượng yêu cầu mà trình thu thập dữ liệu gửi đến trang web. Điều này giúp giảm nguy cơ quá tải cho máy chủ và duy trì hiệu suất ổn định của trang web.
Do đó, nếu bạn muốn thực sự ẩn một trang web khỏi Google, bạn nên sử dụng các cách như noindex để chặn lập chỉ mục hoặc sử dụng mật khẩu bảo vệ trang.
>> Gợi ý: 

2. Cú pháp và thuật ngữ của file robots.txt

Như đã đề cập ở trên, robots.txt có vai trò quan trọng trong việc định hướng, tạo các quy tắc thu thập dữ liệu trên trang web. Để thực hiện điều trên một cách chính xác, file robot sử dụng các cú pháp để các user agents (bot của tìm kiếm) có thể hiểu và làm theo. Cụ thể, trong cú pháp của file robots.txt, bạn thường gặp các thuật ngữ sau:

robots txt là gì 2
 
  • User-agent: Đây là trình thu thập dữ liệu web như Googlebot, Bingbot. Mỗi user agent có thể có quy tắc riêng để xác định cách họ thu thập dữ liệu trên trang web. Nếu lệnh User-agent kèm theo dấu “*”, điều này có nghĩa cú pháp được áp dụng cho tất cả các bot thu thập.
  • Allow: Lệnh này thông báo cho Google bot rằng chúng có thể truy cập vào một thư mục con hoặc một trang cụ thể. 
  • Disallow: Lệnh này giúp thông báo cho các user agent rằng chúng không được phép thu thập dữ liệu từ một URL cụ thể. Mỗi dòng "Disallow" áp dụng cho một URL duy nhất.
  • Crawl-delay: Thông báo cho các User-agent biết cần đợi bao lâu trước khi tải và thu thập nội dung của trang. Điều này giúp ngăn chặn tình trạng các bot load server tuỳ tiện gây quá tải. Lưu ý rằng Googlebot không thừa nhận lệnh này, vì vậy tốc độ thu thập dữ liệu của Google không bị ảnh hưởng.
  • Sitemap: Thuật ngữ này chỉ đến file sơ đồ trang web, một “bản đồ” liệt kê các trang và tệp trên website được phân tầng theo mức độ quan trọng. File sitemap là cơ sở để các user agent có thể hiểu website và thu thập thông tin nhanh chóng hơn.

3. Cách kiểm tra website đã có file robots.txt chưa?

Để kiểm tra xem trang web đã có tệp robots.txt hay chưa, bạn chỉ cần làm theo 2 bước đơn giản như sau:

robots txt là gì 3
 
  • Bước 1: Nhập Root Domain của bạn vào trình duyệt, sau đó thêm đuôi /robots.txt" vào cuối URL (Ví dụ: vinalink.com/robots.txt).
  • Bước 2: Nhấn Enter. Nếu bạn không trang txt xuất hiện hoặc báo lỗi 404, điều này có nghĩa là website bạn chưa có file robots.txt.

4. Cách tạo và tối ưu file robots.txt chuẩn seo trên Wordpress

4.1 Sử dụng Yoast SEO

Yoast SEO là một plugin giúp tối ưu hoá SEO phổ biến nhất cho WordPress. Với người làm SEO hoặc làm SEO copywriter, chắc hẳn không ai không biết plugin này. Để tạo file robots.txt nhanh chóng bằng Yoast SEO, bạn có thể thực hiện các bước sau đây:

robots txt là gì 3
 
  • Bước 1: Vào Dashboard WordPress và chọn Tab SEO -> Tools:
  • Bước 2: Trong trang Tools, bạn sẽ thấy một mục gọi là File editor. Nhấp vào đó để tiếp tục.
  • Bước 3: Một khi bạn đã mở File Editor, tìm đến tùy chọn "Create robots.txt file". Nhấp vào đó để bắt đầu quá trình tạo file robots.txt.
  • Bước 4: Một tab mới sẽ xuất hiện với trình soạn thảo, nơi bạn có thể chỉnh sửa file robots.txt theo ý muốn. Yoast SEO đã có sẵn những giá trị mặc định gợi ý, tuy nhiên bạn có thể tùy chỉnh nó tùy theo nhu cầu của mình.
  • Bước 5: Sau khi đã chỉnh sửa file xong, bạn bấm vào nút "Save changes to robots.txt" để lưu lại công việc của mình.

4.2 Sử dụng Plugin All in One SEO

All in One SEO là một trong những plugin SEO hàng đầu cho WordPress với hơn 2 triệu trang web sử dụng. AIOSEO cung cấp một công cụ quản lý file robots.txt, giúp bạn tối ưu hóa các quy tắc thu thập thông tin cho bot tìm kiếm một cách dễ dàng.

Bước 1: Cài đặt và kích hoạt plugin All in One SEO:

  • Truy cập trang quản trị WordPress của bạn.
  • Điều hướng đến mục "Plugins" và chọn "Add New".
  • Tìm kiếm "All in One SEO" và cài đặt plugin.
  • Kích hoạt plugin sau khi cài đặt.
robots txt là gì 5

Bước 2: Truy cập trình quản lý robots.txt trong All in One SEO:

  • Từ trang quản trị WordPress, chọn "All in One SEO" trong thanh bên trái.
  • Chọn "Tools" từ menu con.

Bước 3: Bật tùy chọn chỉnh sửa robots.txt:

  • Trong trang Tools, tìm và chọn "File Editor".
  • Bật tùy chọn chỉnh sửa bằng cách nhấp vào nút 'Enable Custom robots.txt' để chuyển sang màu xanh biển.

Bước 4: Xem và chỉnh sửa nội dung robots.txt:

  • All in One SEO sẽ hiển thị nội dung mặc định của file robots.txt trong phần "robots.txt Preview". Bạn có thể chỉnh sửa robots.txt theo nhu cầu thu thập thông tin của website mình bằng cách điền và chọn các trường thông tin phù hợp tại các cột “User Agent”, “Rule”, “Directory Path”.
  • Nếu bạn cần đặt thêm quy tắc, nhấp vào "Add Rule" để thêm trường thông tin nhập liệu.

Bước 5: Thêm quy tắc và lưu thay đổi:

Sau khi hoàn tất, bạn nhấn "Save Changes" để All in One SEO lưu lại mọi thay đổi, chỉnh sửa của bạn.

4.3 Tạo file robots.txt qua FTP

Để tạo và upload file robots.txt cho trang web WordPress của bạn không thông qua plugin, bạn có thể làm theo các bước dưới đây:

Bước 1: Tạo file txt trên máy tính

Mở ứng dụng Notepad hoặc Textedit trên máy tính của bạn để tạo một file mới có định dạng .txt.

Bước 2: Thiết lập các quy tắc cho file robots.txt

Tạo và chỉnh sửa các quy tắc cho file robots.txt của bạn sao cho phù hợp với trang web của bạn nhất. Đưới đây là một mẫu robots.txt để bạn tham khảo:

  • User-agent: *
  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
  • Disallow: /wp-content/plugins/
  • Disallow: /wp-content/themes/

Bước 3: Lưu file với tên là "robots.txt".

Bước 4: Upload file robots.txt

Mở ứng dụng FTP, chọn thư mục "public_html". Cuối cùng, bạn chọn file robots.txt và bấm “Upload”.

>> Gợi ý:  URL là gì? Cấu trúc, phân loại và cách tối ưu hóa đường dẫn URL

5. File robots.txt hoạt động như thế nào?

Khi file robots.txt tồn tại trên web, các bot của công cụ tìm kiếm sẽ đọc nó đầu tiên để hiểu rõ quy tắc thu thập thông tin trang web trang web. File này chứa các câu lệnh hướng dẫn về mục nào được phép hoặc không được phép crawl và tần suất thu thập ra sao. Các câu lệnh này giúp tối ưu hóa quá trình crawl và đảm bảo rằng các công cụ tìm kiếm đang thu thập thông tin một cách hiệu quả và chính xác.

robots txt là gì 6


Trong trường hợp không có file robots.txt hoặc file không chứa bất kỳ chỉ thị nào cho các User-agent, các bot sẽ thu thập thông tin một cách tự do, khiến chúng crawl cả những trang bạn không mong muốn. Ngoài ra, khi không có robots.txt, các bot tìm kiếm sẽ không bị giới hạn thời gian tần suất thu thập thông tin website, điều này dẫn đến rủi ro load server liên tục gây quá tải cho website.

6. Một số quy tắc khi tạo file robots.txt

Để tạo file robots.txt chuẩn nhất, bạn cần tham khảo các nguyên tắc sau đây:

  • Đặt file ở thư mục cấp cao nhất: Để bot có thể nhanh chóng tìm thấy file robots.txt, bạn nên đặt file này trong thư mục cấp cao nhất của trang web.
  • Chú ý đến việc viết hoa và viết thường: Bot tìm kiếm có phân biệt chữ hoa và chữ thường. Do đó, để việc thu thập thông tin được thuận lợi nhất, hãy đảm bảo rằng tên file bạn đặt là “robots.txt” (không phải robots.txt hay robots.txt). 
  • Tránh loại bỏ mục quan trọng: Tránh việc đặt /wp-content/themes/ hoặc /wp-content/plugins/ vào phần Disallow. Điều này giúp các công cụ tìm kiếm hiểu rõ về giao diện của bạn, từ đó việc thu thập thông tin không bị cản trở.
  • Không dùng robot.txt để ẩn thông tin người dùng: Tệp robots.txt thường được công khai trên web, bạn có thể dễ dàng thấy chúng bằng cách thêm /robots.txt vào cuối Root Domain. Do đó, bạn tuyệt đối không sử dụng file này để ẩn thông tin của người dùng
  • Mỗi Subdomain cần có file robots.txt riêng biệt: Mỗi Subdomain trên một Root Domain nên có một file robots.txt riêng biệt. Chẳng hạn như: blog.example.com/robots.txt, media.example.com/robots.txt, alt.example.com/robots.txt.

7. Những lưu ý khi sử dụng file robot.txt

Khi sử dụng file robots.txt trên trang web, bạn cần lưu ý một số điều quan trọng sau để đảm bảo rằng các bot tìm kiếm có thể hiểu và thực hiện thu thập thông tin đúng theo mong muốn của bạn. 

Dưới đây là 4 điều bạn cần chú ý khi thực hiện thiết lập và chỉnh sửa file robot.txt:

robots txt là gì 7
 
  • Liên kết trên trang web bị chặn sẽ không được bot theo dõi, trừ khi chúng liên kết với các trang không bị chặn.
  • Tránh sử dụng robots.txt để ngăn chặn thông tin nhạy cảm xuất hiện trong kết quả tìm kiếm. Thay vào đó, nên áp dụng biện pháp bảo mật khác như mật khẩu hay Noindex Meta Directive để bảo vệ thông tin cá nhân.
  • Các User-agent từ cùng một công cụ thường tuân theo một quy tắc thu thập thông tin giống nhau, vì thế bạn không cần mất công làm các lệnh cho từng User-agent một. Tuy nhiên, việc chỉ định lệnh cho từng User-agent vẫn có thể hữu ích để điều chỉnh cách công cụ tìm kiếm lập chỉ mục cho nội dung.
  • Các công cụ tìm kiếm lưu trữ nội dung của file robots.txt nhưng chúng vẫn cập nhật thông tin mới trong bộ nhớ cache ít nhất một lần mỗi ngày.

Qua bài viết này, Vinalink đã giúp bạn hiểu được file robots.txt là gì và tầm quan trọng của chúng trong chiến lược SEO của bạn. Hy vọng với những kiến thức đã nhận được trong bài viết, bạn sẽ có thể dễ dàng tạo ra một file robot.txt chuẩn SEO cho website của mình. Chúc bạn thành công!
Nếu bạn đang tìm kiếm dịch vụ seo tổng thể trọn gói thì hãy liên hệ với chúng tôi ngay sau đây:
 

Call Zalo Messenger