Duplicate Content là gì?

Duplicate content hay Trùng lặp nội dung là những nội dung như văn bản, hình ảnh, video,… xuất hiện từ hai lần trở lên trên cùng một website, hay các website khác nhau.

Nội dung trùng lặp lớn có thể tác động tiêu cực đến thứ hạng của bạn trên công cụ tìm kiếm. Hiểu đơn giản, duplicate content là trùng lặp nội dung từng chữ giống với nội dung đã xuất hiện trên một trang web khác. Bên cạnh đó, lỗi này cũng áp dụng cho các website có nội dung tương tự với nhau.

Tại sao Duplicate content lại ảnh hưởng đến website

Đối với công cụ tìm kiếm

Trùng lặp nội dung có thể gây ra  ba vấn đề chính cho các công cụ tìm kiếm:

  • Họ không biết nên bao gồm/loại trừ ( những) phiên bản nào khỏi chỉ mục của mình.
  • Họ không biết liệu có nên hướng các chỉ số liên kết như độ tin cậy, anchor text, link equity.. đến một trang hoặc tách nó ra giữa nhiều phiên bản
  • Họ không biết những phiên bản nào để xếp hạng cho kết quả truy vấn.

Đối với chủ trang web

Duplicate content có thể làm cho website của bạn bị giảm thứ hạng và mất lưu lượng truy cập. Những thiệt hại này thường bắt nguồn từ 2 vấn đề chính như sau:

  • Để cung cấp trải nghiệm tìm kiếm tốt nhất cho người dùng, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung và do dó buộc phải chọn phiên bản nào có khả năng mang lại kết quả tốt, điều này làm loãng khả năng hiển thị của từng bản sao.
  • Giá trị liên kết (link equity) có thể bị pha loãng bởi các trang web khác cũng phải lựa chọn giữa các bản sao. Thay vì các inbound link trỏ đến một phần của nội dung, chúng liên kết đến nhiều phần và phân bổ giá trị liên kết giữa các bản sao. Inbound link là một yếu tố xếp hạng, điều này có thể ảnh hưởng đến khả năng hiển thị tìm kiếm của một phần nội dung.

Hình phạt của Google đối với Duplicate Content là gì?

Google không có hình phạt dành cho lỗi duplicate content. Tuy nhiên, trong một số trường hợp nếu Google phát hiện nội dung trùng lặp hiển thị với mục đích thao túng thứ hạng từ khóa và đánh lừa người dùng. Google sẽ thực hiện những điều chỉnh phù hợp trong việc lập chỉ mục và xếp hạng của các trang web liên quan. Vì thế, thứ hạng website có thể bị ảnh hưởng đáng kể hoặc trang web có khả năng bị xóa hoàn toàn khỏi chỉ mục của Google và trang web sẽ không còn xuất hiện trong kết quả tìm kiếm nữa.

Vậy ý định thao túng thứ hạng từ khóa và lừa dối người dùng được thể hiện qua các hành động:

  • Cố tình tạo ra nhiều trang, tên miền phụ hoặc tên miền có nhiều nội dung trùng lặp.
  • Xuất bản nhiều nội dung cóp nhặt
  • Xuất bản nội dung liên kết cóp nhặt từ Amazon hoặc các trang web khác nhưng không tạo thêm các giá trị bổ sung.

Nguyên nhân và giải pháp khắc phục Duplicate content

Để khắc phục được lỗi Duplicate content có rất nhiều cách. Dưới đây là tổng hợp nguyên nhân và giải pháp dễ dàng nhất mà bạn có thể thực hiện:

Faceted/Filtered Navigation

Faceted Navigation – Hay còn gọi là điều hướng nhiều chiều. Là nơi mà người dùng có thể lọc và sắp xếp các mục trên trang. Các website thương mại điện tử thường sử dụng nó rất nhiều.

Loại điều hướng này gắn các tham số vào cuối URL. Ví dụ:

Điều hướng có tham số cuối URL

Bởi vì thường có nhiều sự kết hợp của các bộ lọc. Điều hướng nhiều chiều dẫn đến Duplicate Content hoặc gần trùng lặp.

Cùng xem xét 2 ví dụ dưới đây để hiểu rõ hơn về nguyên nhân này nhé:

  • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked
  • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=S&new_style=Checked

Các URL này là duy nhất, nhưng nội dung lại gần như giống hệt nhau.

Ngoài ra, thứ tự của các tham số thường không quan trọng. Ví dụ: bạn có thể truy cập cùng một trang khi sử dụng 1 trong 2 URL sau:

  • bbclothing.co.uk/en-gb/clothing/shirts.html?new_style=Checked&Size=XL
  • bbclothing.co.uk/en-gb/clothing/shirts.html?Size=XL&new_style=Checked

Cách sửa chữa:

Faceted navigation là một vấn đề rất phức tạp. Nếu bạn nghi ngờ đây chính là nguyên nhân dẫn đến Duplicate Content. Hãy quyết định xem bạn muốn Google index những trang nào. Sau đó, hãy tăng số lượng trang hữu ích được index và bỏ đi những trang không cần thiết.

Tracking Parameters

Các URL được tham số hóa cũng được sử dụng để theo dõi. Ví dụ, ta có thể sử dụng thông số UMT để theo dõi lượt truy cập trong phần chiến dịch bản tin của Google Analytics:

Ví dụ: example.com/page?utm_source=newsletter

Cách sửa chữa:

Chuẩn hóa các URL được tham số hóa của bạn để có được các phiên bản thân thiện với SEO mà không cần có các thông số theo dõi.

Session IDs

Session IDs lưu trữ thông tin về khách truy cập vào website. Chúng thường nối một chuỗi dài vào URL như sau:

Ví dụ: example.com?sessionId=jow8082345hnfn9234

Cách khắc phục:

Chuẩn hóa các URL để có được các phiên bản thân thiện với SEO.

HTTPS với HTTP và non-www với www

Bạn có thể truy cập vào website bằng một trong 4 biến thể dưới đây:

  • https://www.example.com (HTTPS, www)
  • https://example.com (HTTPS, non-www)
  • http://www.example.com (HTTP, www)
  • http://example.com (HTTP, non-www)

Phiên bản sử dụng HTTPS chính là hai URL đầu tiên. Dù là dùng phiên bản có www hay không có www thì bạn vẫn có thể truy cập website được.

Tuy nhiên, nếu bạn không cấu hình chính xác máy chủ. Thì website của bạn sẽ có thể được truy cập bằng những biến thể này. Điều này thực sự không tốt và có thể dẫn đến vấn đề Duplicate Content.

Cách sửa chữa:

Sử dụng chuyển hướng để đảm bảo website của bạn chỉ có thể được truy cập bằng một phiên bản duy nhất.

URL phân biệt chữ hoa chữ thường

URL phân biệt chữ hoa chữ thường nghĩa là 3 URL dưới đây đều khác nhau:

  • example.com/page
  • example.com/PAGE
  • example.com/pAgE

Cách sửa chữa:

Nhất quán với các liên kết nội bộ (nghĩa là không liên kết nội bộ với nhiều phiên bản URL). Nếu cách này không giải quyết được vấn đề Duplicate Content là gì nữa, thì có thể thử chuẩn hóa hoặc chuyển hướng.

Dấu gạch chéo theo sau so với dấu gạch chéo không theo sau

Google không xem xét đến vấn đề các URL có hay không có dấu gạch chéo theo sau. Điều đó có nghĩa là Google xem 2 URL dưới đây như một:

  • example.com/page/
  • example.com/page

Nếu nội dung của bạn có thể được truy cập bằng cả hai URL thì sẽ dẫn đến lỗi Duplicate Content. Để Check Duplicate Content xem đây có phải sự cố hay không, hãy thử dùng cả URL có và không có dấu gạch chéo theo sau.

Ví dụ: Nếu bạn cố gắng tải bài đăng của mình bằng URL không có dấu gạch chéo, nó sẽ chuyển hướng đến URL có dấu gạch chéo.

Cách sửa chữa:

Chuyển hướng phiên bản không mong muốn. Ví dụ: Không có dấu gạch chéo theo sau, sang phiên bản mong muốn (ví dụ: có dấu gạch chéo theo sau). Bạn cũng nên đảm bảo luôn luôn nhất quán các liên kết nội bộ. Hãy chọn một phiên bản duy nhất và sử dụng xuyên suốt cho tất cả các URL.

URL thân thiện với bản in

URL thân thiện với bản in có nội dung giống như bản gốc. Và nó đơn giản chỉ là một URL khác mà thôi.

  • example.com/page
  • example.com/print/page

Cách sửa chữa:

Chuẩn hóa các phiên bản thân thiện thành phiên bản bản gốc.

URL thân thiện với thiết bị di động

Tương tự như các URL thân thiện với bản in thì các URL thân thiện với thiết bị di động cũng là trùng lặp.

Ví dụ:

  • example.com/page
  • m.example.com/page

Cách sửa chữa:

Chuẩn hóa phiên bản thân thiện với thiết bị di động thành phiên bản gốc. Sử dụng rel=“alternate” để nhắc nhở Google rằng URL thân thiện với thiết bị di động là phiên bản thay thế cho phiên bản nội dung trên máy tính để bàn.

URL AMP

Các trang thiết bị di động được tăng tốc (AMP) cũng là các bản trùng lặp.

Ví dụ:

  • example.com/page
  • example.com/amp/page

Cách khắc phục:

Chuẩn hóa phiên bản AMP thành phiên bản không sử dụng AMP. Sử dụng rel=”amphtml” để thông báo với Google rằng các URL AMP là phiên bản thay thế cho các nội dung không chứa AMP.

Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ canonical tự tham chiếu (self-referencing canonical tag).

Nếu chưa biết thẻ Canonical là gì, bạn có thể xem bài viết: Thẻ Canonical là gì? 7 Sai lầm sử dụng thẻ Canonical Tag trong SEO

Tag và Category Pages

Hầu hết các CMS (Hệ quản trị nội dung) đều tạo các trang có các thẻ chuyên dụng khi bạn sử dụng thẻ.

Ví dụ: Nếu bạn có một bài viết về Whey Protein hữu cơ. Và bạn đang sử dụng cả 2 cụm từ “bột protein” và “whey” làm thẻ thì bạn sẽ kết thúc với hai trang thẻ như sau:

  • https://www.calton Nutrition.com/tag/whey/
  • https://www.calton Nutrition.com/tag/protein-powder/

Điều này không phải lúc nào cũng dẫn đến Duplicate Content nhưng đôi khi nó cũng gây ra vấn đề này.

Cách sửa chữa:

Có 2 cách giải quyết như sau:

  1. Không sử dụng thẻ. Bởi chúng có rất ít hoặc thậm chí là không có giá trị gì.
  2. Không index các trang có nhiều thẻ. Điều này sẽ không giải quyết được vấn đề ngân sách thu nhập dữ liệu bởi Google sẽ vẫn dành thời gian thu thập những trang này.

Lưu ý rằng các trang danh mục có thể dẫn đến vấn đề tương tự như các trang có nhiều thẻ. Ví dụ như:

  • https://www.xs-stock.co.uk/adidas/
  • https://www.xs-stock.co.uk/brands/Chelsea-FC.html

Cả 2 trang này gần như là giống hệt nhau vì không có sản phẩm nào được liệt kê trong cả 2 danh mục. Do đó, tất cả những gì chúng ta nhìn thấy chỉ là bản sao mẫu đã được soạn sẵn.

Cách sửa chữa:

Sử dụng số lượng vừa phải các danh mục trên website hoặc thậm chí là không index các trang danh mục của bạn.

URL hình ảnh đính kèm

Nhiều CMS tạo ra các trang dành riêng cho tệp đính kèm hình ảnh. Những trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao chép mẫu.

Bởi vì bản sao này giống nhau xuyên suốt tất cả các trang được tạo tự động nên nó dẫn đến Duplicate Content.

Cách sửa chữa:

Tắt các trang dành riêng cho hình ảnh trong CMS. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin như Yoast.

Nhận xét được phân trang

WordPress và các CMS cho phép nhận xét được phân trang. Điều này cũng dẫn đến Duplicate Content bởi vì nó tạo ra nhiều phiên bản của cùng một URL.

Ví dụ:

  • example.com/post/
  • example.com/post/comment-page‑2
  • example.com/post/comment-page‑3

Cách sửa:

Tắt phân trang nhận xét hoặc không lập chỉ mục những trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.

Localization

Nếu bạn phân bổ một nội dung tương tự cho nhiều người ở nhiều quốc gia nhưng sử dụng chung một ngôn ngữ (ví dụ: tiếng Anh) thì cũng sẽ dẫn đến vấn đề Duplicate Content.

Ví dụ: Bạn có thể thiết kế từng phiên bản website khác nhau cho người dùng ở Mỹ, Anh và Úc. Mỗi phiên bản dành cho mỗi quốc gia này sẽ gần như trùng lặp nhau và chỉ khác nhau ở một vài điểm nhỏ.

Chẳng hạn như sử dụng từ “đô la” trong nội dung dành cho người Mỹ và “bảng Anh” trong nội dung dành cho người Anh.

Tuy nhiên, theo John Mueller thì nội dung bản dịch không phải là Duplicate Content.

Cách sửa:

Sử dụng thẻ Hreflang để thông báo cho các công cụ tìm kiếm biết về mối quan hệ giữa các biến thể.

Trang kết quả tìm kiếm

Rất nhiều website có hộp tìm kiếm. Việc sử dụng những hộp này thường tạo ra một URL tìm kiếm được tham số hóa.

Ví dụ: example.com?q=search-term

Cách khắc phục:

Sử dụng thẻ Meta Robot để xóa các trang tìm kiếm khỏi danh sách chỉ mục của Google hoặc chặn quyền truy cập vào các trang chứa kết quả tìm kiếm trong tệp robots.txt. Hạn chế liên kết nội bộ đến các trang chứa kết quả tìm kiếm trên website của bạn.

Môi trường Staging

Môi trường Staging là một phiên bản trùng hoặc gần trùng lặp của website được sử dụng với mục đích thử nghiệm.

Ví dụ: Hãy tưởng tượng rằng bạn muốn cài đặt một Plugin mới hoặc thay đổi một vài code trên website của mình. Tất nhiên là bạn không muốn hiển thị chúng ra website của mình bởi mỗi ngày, có hàng ngàn khách truy cập vào xem nó.

Do đó, hãy kiểm tra những thay đổi trong môi trường staging trước. Tuy nhiên, môi trường Staging lại ảnh hưởng đến SEO khi Google vẫn index chúng và dẫn đến vấn đề Duplicate Content.

Cách khắc phục:

Để bảo vệ môi trường Staging. Bạn nên sử dụng xác thực HTTP, danh sách trắng các địa chỉ IP hoặc quyền truy cập VPN. Nếu nó vẫn được index thì hãy sử dụng lệnh ngăn index tự động để xóa nó.

Cách Check Duplicate Content trên website

Duplicate Content là nội dung xuất hiện trên nhiều vị trí trực tuyến. Điều này có nghĩa là các website khác nhau. Nếu bạn đăng nội dung của mình nhiều nơi thì sẽ dẫn đến Duplicate Content.

Nếu bạn sao chép nội dung những người khác và đăng lên website của mình. Hoặc thậm chí là họ đăng những nội dung của bạn lên website của họ thì đều bị xem là Duplicate Content.

Vậy làm sao để Check Duplicate Content xem nội dung của mình có bị mắc lỗi Duplicate Content hay không?

Dưới đây là ba cách được liệt kê:

Sử dụng Google để check Duplicate Content

Sử dụng Google để check duplicate content là cách nhanh chóng để kiểm tra xem liệu một trang có chứa nội dung trùng lặp hay không. Bạn tiến hành sao chép khoảng 10 từ đầu tiên của câu, để chúng vào dấu ngoặc kép. Tiếp đến, bỏ chúng lên Google để check duplicate content.

Các Tool miễn phí hỗ trợ Check Duplicate Content Online

Trước khi đăng bài viết, bạn nên kiểm tra nội dung của mình bằng các công cụ kiểm tra đạo văn. Dưới đây là các công cụ miễn phí mà bạn có thể dùng để Check Duplicate Content Online

Copyscape

Sử dụng công cụ check trùng lặp nội dung Online Copyscape, bạn chỉ mất khoảng vài giây là đã có thể kiểm tra được nội dung có trùng lặp với những nội dung đã được tải lên hay không. Công cụ so sánh sẽ làm nổi bật nội dung trùng lặp đồng thời ghi rõ trùng lặp bao nhiêu phần trăm.

Plagspotter

Plagspotter là công cụ có thể xác định được các trang có nội dung trùng lặp trên website. Công cụ giúp xác định được website nào đã đánh cắp nội dung từ trang của bạn. Công cụ cũng cho phép tự động theo dõi các URL hàng tuần để xác định lỗi Duplicate Content.

Duplichecker

Công cụ Duplichecker kiểm tra nhanh chóng tính duy nhất của nội dung dự định đăng lên trang web. Mỗi ngày bạn có thể thực hiện tối đa 50 lần check/ngày.

Siteliner

Siteliner giúp bạn kiểm tra toàn bộ website của mình 1 lần/tháng để tìm lỗi Duplicate Content. Công cụ cũng có thể kiểm tra được các liên kết bị hỏng và xác định những trang nổi bật nhất đối với các công cụ tìm kiếm.

Smallseotools

Smallseotools có nhiều công cụ SEO, bao gồm cả công cụ kiểm tra đạo văn giúp bạn xác định được các đoạn nội dung giống hệt nhau.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

0984966806