Cách SEO cho Tin tức cải thiện nhanh xếp hạng Google

Các nhà xuất bản tin tức áp dụng các chiến thuật cụ thể để tối đa hóa khả năng hiển thị của họ trên Google. Một số chiến thuật này có thể được áp dụng cho tất cả các trang web, bất kể thị trường ngách của chúng.

Lĩnh vực tối ưu hóa công cụ tìm kiếm đã trở nên đa dạng và bao trùm nên chúng ta thấy ngày càng có nhiều dịch vụ SEO chuyên biệt hơn.

Tôi cũng không ngoại lệ – xuất thân từ nền tảng CNTT, các khía cạnh kỹ thuật của SEO phù hợp với kỹ năng và sở thích của tôi. Ngoài ra, tôi luôn bị cuốn hút bởi ngành xuất bản và đã dành một năm làm việc tại nhà với tư cách là chuyên gia SEO tại một tờ báo địa phương. Kết quả là, công ty tư vấn SEO của tôi đã phát triển thành một dịch vụ chuyên biệt tập trung vào SEO kỹ thuật và các dịch vụ SEO cho các nhà xuất bản tin tức .

Đặc biệt, khía cạnh thứ hai là một thứ gì đó trong niềm đam mê của tôi. Các nhà xuất bản tin tức chiếm một không gian riêng biệt trên web như là nguồn truy cập cho những gì đang xảy ra trên thế giới. Các công cụ tìm kiếm như Google đã dành toàn bộ ngành dọc đặc biệt cho tin tức – Google Tin tức và đối thủ ít phổ biến hơn đáng kể Bing News – phản ánh tầm quan trọng của nó đối với web. Ngày nay hầu hết chúng ta sẽ nhận được tin tức hàng ngày của họ chủ yếu từ internet và tìm kiếm đóng một vai trò rất lớn trong cách tin tức được phát hiện và tiêu thụ.

Tối ưu hóa trang web tin tức để hiển thị trong tìm kiếm khác với SEO thông thường. Các công cụ tìm kiếm không chỉ có ngành dọc dành riêng cho tin tức với các quy tắc riêng của chúng, chúng tôi còn thấy các tin bài được đưa vào dưới dạng các hộp riêng biệt (thường ở trên cùng) trên các trang kết quả tìm kiếm thông thường:

Google SERP với những câu chuyện hàng đầu

Các băng chuyền Tin bài hàng đầu này có mặt khắp nơi: Nghiên cứu từ Searchmetrics cho thấy rằng 11% tổng số kết quả trên máy tính để bàn của Google và 9% kết quả trên thiết bị di động có yếu tố tin tức. Điều này tương đương với hàng tỷ lượt tìm kiếm mỗi năm hiển thị các bài báo trong một hộp riêng trên trang kết quả đầu tiên của Google.

Tiềm năng lưu lượng truy cập tất nhiên là rất lớn, đó là lý do tại sao hầu hết các nhà xuất bản tin tức đang tối ưu hóa chủ yếu cho băng chuyền Tin bài hàng đầu đó.

Trên thực tế, tiềm năng lưu lượng truy cập từ các Tin bài hàng đầu rất lớn đến mức nó làm cho ngành dọc Google Tin tức bị thu hẹp. Như dữ liệu này từ Parse.ly cho thấy, lượt truy cập vào các trang web tin tức từ ngành dọc chuyên dụng news.google.com chỉ chiếm một phần nhỏ trong tổng số lượt truy cập từ tìm kiếm của Google:

Trang tổng quan Parse.ly - Liên kết giới thiệu bên ngoài đến các nhà xuất bản tin tức

Lưu lượng tìm kiếm trên Google đó chủ yếu là các nhấp chuột từ băng chuyền Câu chuyện hàng đầu. Và tối đa hóa khả năng hiển thị của bạn trong băng chuyền đó có nghĩa là bạn phải chơi theo các quy tắc hơi khác so với SEO ‘cổ điển’.

Bao gồm Google Tin tức

Trước hết, các bài viết hiển thị trong băng chuyền Tin bài hàng đầu hầu như chỉ từ các trang web nằm trong chỉ mục Google Tin tức riêng biệt của Google. Một nghiên cứu của New Dashboard cho thấy khoảng 98% các bài viết về Tin bài hàng đầu là của các nhà xuất bản được Google Tin tức phê duyệt. Rất hiếm khi thấy một bài báo trong Tin bài hàng đầu từ một trang web không có trong Google Tin tức.

Đưa một trang web vào Google Tin tức từng là một quy trình thủ công mà bạn phải gửi trang web của mình để được xem xét và các kỹ sư của Google Tin tức đã xem xét trang web đó có tuân thủ các tiêu chuẩn và yêu cầu của họ hay không . Vào tháng 12 năm 2019, điều này đã đột ngột thay đổi và giờ đây Google cho biết họ sẽ ‘tự động xem xét các Nhà xuất bản cho các tin bài hàng đầu hoặc tab Tin tức của Tìm kiếm’ .

Việc đưa vào Google Tin tức không có gì đảm bảo các bài viết của bạn sẽ hiển thị trong Tin bài hàng đầu. Khi trang web của bạn được chấp nhận trong Google Tin tức, công việc khó khăn thực sự bắt đầu.

Trước hết, Google Tin tức (và do đó, Tin bài hàng đầu) hoạt động dựa trên một chỉ mục ngắn hạn của các bài báo. Trong trường hợp tìm kiếm thông thường của Google duy trì một chỉ mục của tất cả nội dung mà nó tìm thấy trên web, bất kể nội dung đó cũ đến đâu, Google Tin tức có một chỉ mục trong đó các bài báo bị loại bỏ sau 48 giờ .

Điều này có nghĩa là bất kỳ bài viết nào cũ hơn hai ngày sẽ không được hiển thị trong Google Tin tức và không được hiển thị trong Tin bài hàng đầu. (Trên thực tế, dữ liệu từ công cụ NewzDash cho thấy tuổi thọ trung bình của một bài báo trên Google Tin tức là dưới 40 giờ.)

Tất nhiên, duy trì một chỉ số ngắn hạn như vậy cho tin tức có ý nghĩa. Sau hai ngày, một bài báo không còn là “tin tức” nữa. Chu kỳ tin tức di chuyển nhanh chóng và tờ báo của ngày hôm qua là tờ báo của ngày hôm nay.

SEO thời gian thực

Ý nghĩa của SEO tin tức là khá sâu sắc. Trong trường hợp SEO thông thường tập trung rất nhiều vào những cải tiến lâu dài của nội dung và thẩm quyền của trang web để tăng lượng truy cập đều đặn, thì trong tin tức, tác động của SEO thường chỉ được cảm nhận trong vòng vài ngày. SEO tin tức là SEO theo thời gian thực khá nhiều .

Khi bạn hiểu rõ điều gì đó trong SEO tin tức, bạn có xu hướng biết rất nhanh. Điều tương tự cũng áp dụng khi có sự cố.

Điều này được phản ánh trong đồ thị lưu lượng truy cập; các trang web tin tức có xu hướng thấy các đỉnh và đáy mạnh hơn nhiều so với các trang web thông thường:

Tìm kiếm trong Analytics cho một trang thương mại điển hình

Biểu đồ lưu lượng tìm kiếm cho một trang web thông thường cho thấy sự tăng trưởng ổn định theo thời gian

Tìm kiếm trong Analytics cho một nhà xuất bản tin tức

Biểu đồ lưu lượng tìm kiếm cho một nhà xuất bản tin tức hiển thị các mức cao nhất và giảm mạnh trong các khung thời gian ngắn

Trong đó hầu hết SEO là xây dựng giá trị lâu dài, trong tin tức SEO theo chiều dọc gần với thời gian thực nhất mà bạn có thể đến bất cứ đâu trong ngành công nghiệp tìm kiếm.

Không chỉ khung thời gian của chỉ mục tin tức bị giới hạn trong 48 giờ, thường thì nhà xuất bản đưa câu chuyện ra đầu tiên là người đạt được vị trí đầu tiên trong hộp Câu chuyện hàng đầu cho chủ đề đó.

Và đứng đầu trong Tin bài hàng đầu là nơi bạn sẽ muốn có được lưu lượng truy cập tối đa.

Vì vậy các nhà xuất bản tin tức phải tập trung vào việc tối ưu hóa để thu thập dữ liệu và lập chỉ mục nhanh chóng. Đây là nơi mà mọi thứ trở nên thú vị. Bởi vì mặc dù là một phần của chỉ mục được quản lý riêng biệt, các trang web có trong Google Tin tức vẫn được thu thập thông tin và lập chỉ mục bởi các quy trình tìm kiếm web thông thường của Google.

Ba quy trình chính của Google

Chúng tôi có thể phân loại các quy trình của Google như một công cụ tìm kiếm web thành gần ba phần:

  • Thu thập thông tin
  • Lập chỉ mục
  • Xếp hạng
Xếp hạng lập chỉ mục thu thập thông tin của Google

Nhưng chúng tôi biết quy trình lập chỉ mục của Google có hai giai đoạn riêng biệt: giai đoạn đầu tiên sử dụng mã nguồn HTML thô của trang và giai đoạn thứ hai nơi trang được hiển thị đầy đủ và mã phía máy khách cũng được thực thi:

Lập chỉ mục hai giai đoạn của Google

Giai đoạn thứ hai này, giai đoạn kết xuất quá trình lập chỉ mục của Google, không nhanh lắm . Bất chấp những nỗ lực hết mình của Google, vẫn có độ trễ kéo dài (vài ngày đến hàng tuần) giữa thời điểm một trang được thu thập dữ liệu lần đầu tiên và khi Google có khả năng hiển thị đầy đủ trang đó.

Đối với các bài báo, giai đoạn thứ hai là quá chậm. Rất có thể bài báo đã bị loại khỏi chỉ mục tin tức 48 giờ của Google rất lâu trước khi nó được hiển thị.

Do đó, các trang web tin tức phải tối ưu hóa cho giai đoạn lập chỉ mục đầu tiên: giai đoạn HTML thuần túy, nơi Google đặt cơ sở lập chỉ mục một trang trên mã nguồn HTML và không thực thi bất kỳ JavaScript phía máy khách nào.

Việc lập chỉ mục trong giai đoạn đầu tiên này rất nhanh chóng, nó xảy ra trong vài giây sau khi một trang được thu thập thông tin. Trên thực tế, tôi tin rằng trong hệ sinh thái của Google, quá trình thu thập dữ liệulập chỉ mục ở giai đoạn đầu là khá giống nhau . Khi Googlebot thu thập dữ liệu một trang, nó ngay lập tức phân tích cú pháp HTML và lập chỉ mục nội dung của trang.

Tối ưu hóa HTML

Về lý thuyết, điều này có vẻ như dễ dàng hơn cho các SEO khi tối ưu hóa các bài báo. Rốt cuộc, nhiều vấn đề về lập chỉ mục bắt nguồn từ giai đoạn lập chỉ mục thứ hai nơi trang được hiển thị.

Tuy nhiên, trên thực tế thì ngược lại. Hóa ra, giai đoạn lập chỉ mục đầu tiên đó không phải là một quá trình đặc biệt dễ tha thứ.

Trong kỷ nguyên trước, trước khi Google chuyển mọi người sang Bảng điều khiển tìm kiếm mới của họ và xóa nhiều báo cáo trong quá trình này, các trang web tin tức đã có một yếu tố bổ sung cho báo cáo Lỗi thu thập thông tin trong Công cụ quản trị trang web. Báo cáo này cho thấy các lỗi thu thập dữ liệu dành riêng cho tin tức đối với các trang web đã được chấp nhận vào Google Tin tức:

Công cụ quản trị trang web của Google Lỗi thu thập thông tin tin tức

Báo cáo này liệt kê các vấn đề mà Google gặp phải khi thu thập dữ liệu và lập chỉ mục các bài báo.

Các loại lỗi hiển thị trong báo cáo này rất khác với lỗi thu thập thông tin ‘thông thường’ và đặc trưng cho cách Google xử lý các bài báo cho chỉ mục tin tức của nó.

Ví dụ: một lỗi phổ biến sẽ là ‘ Bài viết bị phân mảnh ‘. Lỗi như vậy sẽ xảy ra khi nguồn HTML quá lộn xộn khiến Google không thể trích xuất đúng nội dung đầy đủ của bài viết.

Chúng tôi nhận thấy rằng các đoạn mã cho những thứ như thư viện hình ảnh, video được nhúng và các bài viết liên quan có thể cản trở việc xử lý toàn bộ bài viết của Google và dẫn đến lỗi ‘ Bài viết bị phân mảnh ‘.

Xóa các khối mã như vậy khỏi đoạn mã HTML có chứa nội dung bài viết (bằng cách di chuyển nó lên trên hoặc dưới HTML bài viết trong mã nguồn) có xu hướng giải quyết vấn đề và giảm số lượng lớn lỗi ‘ Bài viết bị phân mảnh ‘.

Google Có Giới hạn Kích thước Tệp HTML?

Một lỗi thu thập thông tin cụ thể khác mà tôi thường gặp là ‘ Trích xuất không thành công ‘. Lỗi này về cơ bản là một thừa nhận rằng Google không thể tìm thấy bất kỳ nội dung bài viết nào trong mã HTML. Và nó chỉ ra một hạn chế rất hấp dẫn trong hệ thống lập chỉ mục của Google: giới hạn kích thước HTML .

Tôi nhận thấy rằng lỗi ‘ Trích xuất Không thành công ‘ thường gặp trên các trang chứa nhiều CSS và JavaScript nội tuyến. Trên các trang này, nội dung thực sự của bài viết sẽ không bắt đầu cho đến rất muộn trong nguồn HTML. Nhìn vào mã nguồn, các trang này có khoảng 450 KB HTML phía trên vị trí mà nội dung bài viết thực sự bắt đầu.

Phần lớn trong số 450 KB đó được tạo thành từ CSS và JavaScript nội tuyến, do đó, nó là mã – theo như Google được biết – không thêm sự liên quan vào trang và không phải là một phần của nội dung cốt lõi của trang đó.

Đối với khách hàng cụ thể này, CSS nội tuyến đó là một phần trong nỗ lực của họ để làm cho trang web tải nhanh hơn. Trên thực tế, họ đã được khuyến nghị (trớ trêu thay, bởi các cố vấn phát triển từ Google) nên đưa tất cả CSS quan trọng của họ trực tiếp vào nguồn HTML thay vì trong một tệp CSS riêng biệt để tăng tốc độ hiển thị trình duyệt.

Rõ ràng là các cố vấn của Google này không biết về một hạn chế nhất định trong hệ thống lập chỉ mục giai đoạn đầu của Google: cụ thể là nó ngừng phân tích cú pháp HTML sau một lượng kilobyte nhất định .

Cuối cùng, khi tôi thuyết phục được các nhà phát triển front-end của trang web hạn chế số lượng CSS nội tuyến và mã phía trên HTML của bài viết đã giảm từ 450 KB xuống còn khoảng 100 KB, phần lớn lỗi ‘ Trích xuất không thành công ‘ của trang tin tức đó đã biến mất .

Đối với tôi, nó cho thấy rằng Google có giới hạn về kích thước tệp cho các trang web.

Giới hạn đó chính xác là ở đâu, tôi không chắc. Nó nằm ở đâu đó từ 100 KB đến 450 KB. Bằng chứng giai thoại từ các nhà xuất bản tin tức khác mà tôi đã làm việc cùng khoảng thời gian đó khiến tôi tin rằng giới hạn thực tế là khoảng 400 KB , sau đó Google ngừng phân tích cú pháp HTML của trang web và chỉ xử lý những gì tìm thấy cho đến nay. Một chỉ mục hoàn chỉnh về nội dung của trang phải đợi giai đoạn hiển thị mà Google dường như không có giới hạn về kích thước tệp nghiêm ngặt như vậy.

Đối với các trang web tin tức, việc vượt quá giới hạn kích thước HTML này có thể có những tác động đáng kể. Về cơ bản, điều đó có nghĩa là Google không thể lập chỉ mục các bài báo trong quá trình lập chỉ mục giai đoạn đầu của mình, vì vậy các bài báo không thể được đưa vào Google Tin tức. Và nếu không có sự bao gồm đó, các bài báo cũng không hiển thị trong Tin bài hàng đầu. Tổn thất lượng truy cập có thể rất thảm khốc.

Bây giờ, ví dụ cụ thể này đã xảy ra vào năm 2017 và hệ thống lập chỉ mục của Google có thể đã tiếp tục kể từ đó.

Nhưng đối với tôi, nó nhấn mạnh một khía cạnh thường bị bỏ qua của SEO tốt: mã HTML sạch sẽ giúp Google xử lý các trang web dễ dàng hơn. Mặt khác, HTML lộn xộn có thể gây khó khăn cho hệ thống lập chỉ mục của Google trong việc hiểu nội dung của một trang.

Mã sạch vấn đề . Điều đó đã đúng trong những ngày đầu của SEO, và theo quan điểm của tôi thì nó vẫn đúng cho đến ngày nay. Nỗ lực cho HTML sạch, được định dạng tốt có những lợi ích ngoài SEO và đó là một khuyến nghị mà tôi tiếp tục đưa ra cho nhiều khách hàng của mình.

Mã tốt và mã xấu

Rất tiếc, Google đã quyết định gỡ bỏ báo cáo Lỗi thu thập thông tin cụ thể vào năm 2018, vì vậy chúng tôi đã mất thông tin có giá trị về cách Google có thể xử lý và lập chỉ mục nội dung của chúng tôi.

Có thể ai đó tại Google nhận ra thông tin này có lẽ hơi quá hữu ích cho người làm SEO. 😉

Thực thể và Xếp hạng

Thật thú vị khi thấy Google đã từ từ chuyển đổi từ cách tiếp cận dựa trên từ khóa sang mức độ phù hợp sang cách tiếp cận dựa trên thực thể. Mặc dù các từ khóa vẫn còn quan trọng, nhưng việc tối ưu hóa nội dung giờ đây tập trung vào các thực thể nằm bên dưới những từ đó hơn là bản thân các từ.

Không nơi nào điều này rõ ràng hơn trong Google Tin tức và Tin bài hàng đầu.

Trong các kỷ nguyên SEO trước đây, một nhà xuất bản tin tức có thể mong đợi xếp hạng cho hầu hết mọi chủ đề mà họ chọn để viết miễn là trang web của họ được coi là có đủ thẩm quyền. Ví dụ: một trang web như Daily Mail có thể viết về mọi thứ theo nghĩa đen và yêu cầu xếp hạng hàng đầu và vị trí chính trong hộp Câu chuyện hàng đầu. Đây là một hiệu ứng đơn giản của các tính toán của Google về thẩm quyền – liên kết, liên kết và nhiều liên kết khác.

Với hàng triệu liên kết đến, rất ít trang web có thể đánh bại dailymail.co.uk về chỉ số liên kết.

Ngày nay, các nhà xuất bản tin tức bị hạn chế hơn nhiều về tiềm năng xếp hạng của họ và thường sẽ chỉ đạt được thứ hạng tốt và khả năng hiển thị Câu chuyện hàng đầu cho các chủ đề mà họ đưa tin thường xuyên.

Tất cả là do Google đã kết hợp biểu đồ tri thức của họ (còn được gọi là biểu đồ thực thể ) vào hệ thống xếp hạng của mình như thế nào .

Tóm lại, mọi chủ đề (như một người, một sự kiện, một trang web hoặc một vị trí) là một nút trong biểu đồ thực thể của Google, được kết nối với các nút khác. Khi hai nút có mối quan hệ rất chặt chẽ, biểu đồ thực thể sẽ hiển thị mối liên hệ chặt chẽ giữa hai nút.

Ví dụ, chúng ta có thể vẽ một biểu đồ thực thể rất đơn giản cho Arnold Schwarzenegger . Chúng tôi sẽ đặt nút cho Arnold ở giữa và vẽ một số nút ví dụ có mối quan hệ với Arnold theo cách này hay cách khác. Anh ấy đóng vai chính trong bộ phim Predator năm 1987 (một trong những bộ phim hành động yêu thích của tôi mọi thời đại), và tất nhiên là một biểu tượng thể hình to lớn , vì vậy những nút đó sẽ có mối quan hệ kết nối chặt chẽ với nút Arnold chính.

Và đối với ví dụ này, chúng tôi sẽ lấy trang web MensHealth.com và nói rằng nó chỉ đăng các bài báo về Arnold rất ít thường xuyên. Vì vậy, mối quan hệ giữa Arnold và MensHealth.com khá yếu, được biểu thị bằng một đường kết nối mỏng trong biểu đồ thực thể ví dụ này:

Arnold Schwarzenegger ví dụ biểu đồ thực thể

Bây giờ nếu MensHealth.com mở rộng phạm vi bảo hiểm của mình về Arnold Schwarzenegger và thường xuyên viết về anh ấy trong một khoảng thời gian dài, mối quan hệ giữa Arnold và MensHealth.com trở nên bền chặt hơn và mối liên hệ giữa hai nút của họ được nhấn mạnh hơn nhiều:

Arnold Schwarzenegger ví dụ biểu đồ thực thể 2

Điều này có tác động như thế nào đến thứ hạng của Google cho MensHealth.com?

Chà, nếu Google coi MensHealth.com có ​​liên quan mật thiết đến ‘Arnold Schwarzenegger’, thì khi MensHealth.com xuất bản một câu chuyện về Arnold, nhiều khả năng sẽ đạt được vị trí hàng đầu trong băng chuyền Câu chuyện hàng đầu:

Arnold Schwarzenegger SERP với Câu chuyện hàng đầu của MensHealth.com

Bây giờ nếu MensHealth.com viết về một chủ đề mà họ hiếm khi đề cập, chẳng hạn như Jeremy Clarkson, thì họ sẽ khó có thể đạt được thứ hạng tốt – bất kể số liệu liên kết của họ mạnh đến mức nào. Đơn giản là Google không coi MensHealth.com là nguồn thông tin uy tín về Jeremy Clarkson so với các trang tin tức như Daily Express hay The Sun, bởi vì MensHealth.com đã không xây dựng kết nối đó trong biểu đồ thực thể theo thời gian.

Cách tiếp cận dựa trên thực thể để xếp hạng này ngày càng phổ biến trên Google và điều mà tất cả các chủ sở hữu trang web nên chú ý đến.

Bạn không thể chỉ dựa vào các tín hiệu thẩm quyền từ các liên kết. Các trang web cần xây dựng kiến thức chuyên môn để chúng xây dựng kết nối mạnh mẽ giữa chính chúng và các chủ đề chúng muốn xếp hạng trong biểu đồ tri thức của Google.

Các liên kết vẫn phục vụ mục đích thu hút sự chú ý và đáng tin cậy của một trang web, nhưng vượt quá một mức độ nhất định, các tín hiệu liên quan của biểu đồ thực thể sẽ chiếm ưu thế khi đạt được thứ hạng hàng đầu cho bất kỳ từ khóa nào.

Bài học từ SEO Tin tức

Tóm lại, tất cả những người làm SEO đều có thể rút ra những bài học quý giá từ các chiến thuật SEO cụ thể theo ngành dọc. Trong khi một số lĩnh vực của SEO tin tức chỉ hữu ích cho các nhà xuất bản tin tức, nhiều khía cạnh của SEO tin tức cũng áp dụng cho SEO chung.

Những gì tôi đã học được về cách tối ưu hóa HTML và xây dựng kết nối biểu đồ thực thể trong khi làm việc với các nhà xuất bản tin tức có thể áp dụng trực tiếp cho tất cả các trang web, bất kể thị trường ngách của chúng.

Bạn có thể học các bài học tương tự bằng cách xem các ngành dọc khác, như Tìm kiếm cục bộ và Hình ảnh.

Cuối cùng, hệ sinh thái tìm kiếm của Google rất rộng lớn và liên kết với nhau. Một chiến thuật cụ thể hoạt động trong một lĩnh vực của SEO có thể chứa những hiểu biết sâu sắc có giá trị cho các lĩnh vực khác của SEO.

Hãy nhìn xa hơn bong bóng của chính bạn và luôn sẵn sàng tiếp thu kiến ​​thức mới. SEO là một ngành học rất đa dạng, không ai có thể khẳng định là hiểu hết. Đó là một trong những điều tôi rất thích ở ngành này: luôn có nhiều điều để học hỏi .