File Robots.txt WordPress cho SEO : Chi tiết từng bước thực hiện

File Robots.txt là một trong những dữ liệu quan trọng nhất mà bạn có trên trang web của mình. Điều quan trọng đến mức một file robot.txt được viết không chính xác thậm chí có thể khiến bạn bị loại khỏi các công cụ tìm kiếm.

Vì vậy, trong hướng dẫn này, tôi sẽ chỉ cho bạn cách tạo file robots.txt tùy chỉnh cho trang web WordPress của bạn.

SEO bao gồm rất nhiều yếu tố, nhưng sẽ không có gì hiệu quả nếu các công cụ tìm kiếm không thể thu thập dữ liệu trang web của bạn. Vì vậy, trước khi chuyển sang robots.txt, bạn phải hiểu thu thập thông tin là gì.

Trình thu thập thông tin công cụ tìm kiếm là gì

Các công cụ tìm kiếm có các chương trình được gọi là trình thu thập thông tin còn được gọi là “bot” hoặc “web-spiders”.

Các trình thu thập thông tin này truy cập quét và đọc tất cả các trang trong phạm vi tiếp cận của chúng để chuẩn bị lập chỉ mục công cụ tìm kiếm về tất cả các liên kết đã biết bao gồm thông tin về nội dung của trang và thông tin khác.

Công việc của các trình thu thập thông tin này là đi qua tất cả các trang web và khám phá các bài đăng, trang web mới và các cập nhật khác xảy ra trên internet.

Trình thu thập thông tin có ngân sách cố định , giới hạn về số lượng họ có thể thu thập dữ liệu một trang web và thời gian họ cần để làm điều đó. – Đây được gọi là giới hạn tốc độ thu thập thông tin hoặc ngân sách.

thu thập-ngân sách-cho-google-bot

Nó cũng phụ thuộc vào nhu cầu thu thập thông tin, là số lượng URL và trang mà trình thu thập thông tin muốn và cần thu thập thông tin trên trang web của bạn.

thu thập thông tin-nhu cầu

Nếu bạn để bot thu thập dữ liệu các phần không cần thiết của trang web và đạt đến giới hạn tốc độ thu thập dữ liệu hoặc nhu cầu được đáp ứng, nó sẽ rời khỏi trang web của bạn và có thể không thu thập dữ liệu các trang thiết yếu mà bạn muốn xếp hạng trên Google.

giới hạn tốc độ thu thập thông tin

Robots.txt là gì

robots.txt-example

Trình thu thập thông tin tiếp tục theo các liên kết đến mọi trang khác trên trang web cho đến khi tất cả các trang đã được đọc và robots.txt được sử dụng để cung cấp cho trình thu thập thông tin hướng dẫn để dừng hoặc kiểm soát việc này.

Robots.txt yêu cầu trình thu thập thông tin để lại một nhóm trang và liên kết riêng lẻ hoặc cụ thể để thu thập thông tin. Nếu chúng không được thu thập thông tin bởi bot, hầu hết chúng sẽ không xuất hiện trong các trang kết quả của công cụ tìm kiếm.

Nó phụ thuộc vào trình thu thập thông tin nếu nó tuân theo những gì robots.txt đã hướng dẫn, bạn không thể ép buộc chúng.

Robots.txt là một file văn bản nằm trong thư mục gốc của máy chủ của bạn. Xem ví dụ .

Nó còn được gọi là “giao thức loại trừ rô bốt và tiêu chuẩn loại trừ rô bốt. Họ nói và hiểu một ngôn ngữ cụ thể được gọi là giao thức loại trừ rô bốt. 

Trình thu thập thông tin của công cụ tìm kiếm khi truy cập trang web của bạn, robots.txt là thứ đầu tiên nó kiểm tra. Nó sẽ làm theo hướng dẫn được cung cấp trong file của bạn hoặc nó sẽ bỏ qua.

người máy xấu

Trình thu thập thông tin của công cụ tìm kiếm ít có khả năng bỏ qua hướng dẫn robots.txt của bạn, phần mềm độc hại hoặc bot xấu sẽ bỏ qua chúng mọi lúc và bạn không thể làm gì để ngăn chặn chúng.

Khái niệm cơ bản về Robots.txt

Có một số lệnh hướng dẫn bạn cần biết, đó là:

  1. Đại lý người dùng: *
  2. Cho phép: /
  3. Không cho phép: /

3 lệnh cơ bản trên tạo thành toàn bộ file robots.txt.

Đầu tiên, bạn nhập tác nhân người dùng:

Đại lý người dùng: *

[su_note note_color = ”# e60202 ″ text_color =” # ffffff ”] Dấu hoa thị sau “ user-agent ” có nghĩa là hướng dẫn robots.txt sẽ áp dụng cho mọi bot truy cập trang web. [/ su_note]

Khi bạn muốn cho phép bot thu thập thông tin một trang trên trang web của mình mà bạn sử dụng:

Cho phép: /

Khi bạn không muốn thu thập thông tin bất kỳ trang nào của mình, hãy sử dụng:

Không cho phép: /

Thông thường, bạn chỉ muốn không cho phép các trang cụ thể, vì vậy, sau dấu gạch chéo, bạn phải cung cấp một URL. Nếu bạn chỉ sử dụng lệnh disallow như được hiển thị ở trên, nó sẽ ngăn trình thu thập thông tin thu thập dữ liệu bất kỳ trang web nào của bạn.

II, hầu hết các trường hợp, bạn sẽ không để điều đó xảy ra vì vậy sau lệnh disallow, bạn đặt một URL mà bạn không muốn trình thu thập thông tin thu thập thông tin.

Hướng dẫn cơ bản về Robots.txt cho blog WordPress:

Dưới đây tôi đã viết một lệnh cơ bản của robots.txt cho WordPress, bạn có thể sao chép và dán để sử dụng nó trên blog của mình:

Đại lý người dùng: *

Disallow: / wp-admin /

Cho phép: /wp-admin/admin-ajax.php

Việc sử dụng các lệnh trên trong file robots.txt của bạn là cần thiết.

Robots.txt được tối ưu hóa SEO

Đại lý người dùng: * 

Không cho phép: / cgi-bin / 

Disallow: / wp-admin / 

Không cho phép: /? * 

Disallow: /index.php 

Không cho phép: /xmlrpc.php

WordPress có trang đăng nhập thông qua URL “ / wp-admin ” và trang này không có giá trị gì đối với các công cụ tìm kiếm . Tốt hơn là nên chặn chúng.

Tương tự, trang “/ index” là trang bạn sẽ không muốn hiển thị trong công cụ tìm kiếm vì nó chứa các file của bạn nằm trên máy chủ của bạn. Bạn cũng chặn chúng.

Sau đó, “/ xmlrpc,” được sử dụng cho pingback và trackback trong WordPress và bạn cũng nên thêm “/? *” Vào lệnh disallow. Nó sẽ chặn bot quét kết quả tìm kiếm nội bộ của bạn và sẽ giúp ngăn chặn các trang trùng lặp và quá nhiều.

Điều này giúp tiết kiệm rất nhiều ngân sách thu thập thông tin .

Cách tạo file Robots.txt

Trước tiên, bạn nên kiểm tra xem bạn đã có file robots.txt hay chưa.

Tới “ yourdoman.com/robots.txt” để kiểm tra.

* Thay thế “yourdomain.com” bằng tên miền trang web của bạn .

Nếu đã có file robots.txt, bạn chỉ cần chỉnh sửa nó. Nếu không có file robots.txt trên máy chủ của bạn, điều đó có nghĩa là bạn sẽ phải tạo nó.

Có một cách dễ dàng để tạo file robots.txt cho trang web WordPress của bạn – cài đặt plugin Squirrly.

Squirrly là một plugin SEO sẽ tự động tạo file robots.txt cho trang web của bạn khi kích hoạt. Bạn có thể chỉnh sửa nó bằng cách đi tới cài đặt nâng cao:

Squirrly-Advanced-Setting-for-Robots.txt-file

Tuy nhiên, nó không tạo ra file robots.txt vật lý, vì vậy nếu trong tương lai bạn xóa plugin này và dữ liệu của nó, file robots.txt của bạn cũng sẽ bị mất. WordPress tạo file robots.txt ảo trên máy chủ của bạn nếu không có. Để chỉnh sửa nó, bạn có thể sử dụng Squirrly hoặc Yoast.

Tôi khuyên bạn nên tạo và tải lên file robots.txt tại máy chủ của mình.

1. Truy cập máy chủ của bạn ở cấp FTP.

Trước tiên, bạn nên cài đặt một ứng dụng khách FTP trên PC để truy cập vào máy chủ lưu trữ web của mình. Tôi thích Filezilla hơn để làm điều này.

Cài đặt Filezilla và kết nối với máy chủ của bạn bằng tên người dùng và mật khẩu FTP / SFTP. Nếu bạn không biết về chúng, hãy hỏi nhà cung cấp dịch vụ lưu trữ của bạn.

2. Tìm file robots.txt trong public.html

Nhấp vào thư mục public.html trong khu vực máy chủ FTP của bạn. Bên dưới, bạn sẽ thấy file robots.txt. Nếu bạn chưa có file robots.txt, bạn có thể không nhìn thấy nó. Trong trường hợp này, bạn sẽ phải tạo một cái.

FTP-find-robots.txt

3. Mở trình soạn thảo văn bản

Notepad sẽ hoạt động. Mở Notepad trên PC của bạn và sao chép / dán hướng dẫn robots.txt này:

Đại lý người dùng: *

Disallow: / wp-admin

Không cho phép: / xmlrpc

Disallow: /index.php

Cho phép: /wp-admin/admin-ajax.php

Bạn cũng có thể thêm sơ đồ trang web của mình tại đây, nhưng không cần thiết phải làm điều đó.

Lưu file văn bản này và đặt tên là rô bốt. Đảm bảo rằng bạn đặt phần mở rộng “.txt” và không thêm “.txt” vào trường tên.

4. Tải nó lên gốc máy chủ của bạn

Quay lại Filezilla và nhấp vào thư mục public.html.

Kéo và thả file robots.txt của bạn vào khoảng trống ở phía bên trái của màn hình máy tính.

uploading-robots.txt-file

Đó là nó. File robots.txt của bạn hiện đang hoạt động.

Cập nhật 2019: Google gần đây đã thông báo rằng thẻ Nofollow (rel = ”nofollow) sẽ được coi là một gợi ý. Điều đó có nghĩa là Google có thể hoặc có thể không tôn trọng thẻ Nofollow. Google đã giới thiệu hai thẻ mới có tên “UGC (nội dung do người dùng tạo)” và “được tài trợ”.

Thẻ rel = ”UGC” có thể được sử dụng cho nội dung do người dùng tạo, chẳng hạn như nhận xét blog, liên kết diễn đàn và thẻ rel = ”được tài trợ” có thể bị kiện vì liên kết liên kết và liên kết đối tác. Bạn có thể đọc thông báo chính thức tại đây.

Tôi hy vọng bây giờ bạn đã biết cách chuẩn bị file robots.txt được tối ưu hóa SEO cho trang web WordPress của mình. Giờ đây, trình thu thập thông tin của công cụ tìm kiếm sẽ không thu thập thông tin các trang vô dụng trên trang web của bạn và blog tiết kiệm ngân sách thu thập thông tin.

Điều này sẽ cho phép họ thu thập thông tin tất cả các trang của bạn mà bạn muốn