Bạn có hiểu giao thức HTTP hoạt động như thế nào và tác động của nó đối với việc thu thập thông tin và lập chỉ mục các trang web không? Không? Đây là hướng dẫn do Contributor Barry Adams viết về mã trạng thái HTTP và tiêu đề sẽ giúp bạn học dễ dàng hơn.
Trong kiến ​​trúc máy khách-máy chủ của World Wide Web, sự tương tác giữa các trình duyệt và trang web được xử lý thông qua giao thức truyền siêu văn bản (HTTP). Giao thức này được giới thiệu vào năm 1991 và là một tiêu chuẩn web chính thức ví dụ ở đây. Hầu hết tất cả lưu lượng truy cập trên web đều được xử lý thông qua HTTP.
Khi trình thu thập thông tin của công cụ tìm kiếm như Googlebot thu thập dữ liệu một trang web, chúng hoạt động giống như các trình duyệt yêu cầu các trang web từ một trang web và dựa vào HTTP cho trao đổi này. Đây là lý do tại sao điều quan trọng đối với các chuyên gia tối ưu hóa công cụ tìm kiếm (SEO) là phải hiểu cách thức hoạt động của giao thức HTTP và tác động của nó đối với việc thu thập thông tin và lập chỉ mục các trang web của các công cụ tìm kiếm. Trong chuyên mục này, tôi sẽ giải thích mọi thứ bạn cần biết.
Nhưng trước tiên, hãy để tôi cho bạn biết về các công cụ bạn sẽ cần để thực hiện các thử nghiệm cần thiết trên trang web của mình. Google Chrome DevTools cho phép bạn xem phản hồi HTTP đầy đủ của trình định vị tài nguyên (URL) thống nhất, nhưng có thể khó xem. Tôi thích sử dụng các plugin Ayima Page Insights và Ayima Redirect Path Chrome để hiển thị cho tôi phản hồi HTTP đầy đủ của URL.
Sử dụng plugin Ayima Page Insights trong Chrome, đây là phản hồi HTTP trông như thế nào:

Một công cụ khác thực hiện công việc tương tự là Tiêu đề HTTP trực tiếp cho Chrome.

Mã trạng thái HTTP
Hãy nói về mã trạng thái HTTP.
Khi một trang web được yêu cầu từ một trang web, máy chủ của trang web sẽ phản hồi bằng mã trạng thái HTTP. Mã này là xác nhận yêu cầu của máy khách và chỉ ra loại phản hồi mà máy chủ đang gửi đến máy khách.
Có hàng trăm mã trạng thái HTTP khác nhau mà máy chủ web có thể phản hồi và bạn có thể gặp phải trong công việc tối ưu hóa công cụ tìm kiếm (SEO) hàng ngày của mình. Nó sẽ giúp bạn làm quen với hầu hết chúng để bạn biết cách làm việc với chúng. Dưới đây là danh sách các mã trạng thái HTTP phổ biến hơn:
200 OK.
300 Multiple choices.
301 Moved permanently.
302 Moved temporarily.
304 Not modified.
307 Temporary redirect.
400 Bad request.
401 Unauthorized.
404 Not found.
410 Gone.
429 Too many requests.
500 Internal server error.
501 Not implemented.
503 Service unavailable.
550 Permission denied.
200 OK
Hãy bắt đầu với điều hiển nhiên. Phản hồi 200 từ máy chủ web có nghĩa là yêu cầu đã thành công, rằng trang web được yêu cầu tồn tại và máy chủ web sẽ bắt đầu gửi trang đó và các tài nguyên liên quan (hình ảnh, tệp CSS & JS, v.v.) đến máy khách.
Mã phản hồi này rất đơn giản. Thông thường, các tiêu đề bổ sung được gửi cùng với mã phản hồi có thể ảnh hưởng đến cách các công cụ tìm kiếm xử lý URL. Chúng tôi sẽ xem xét những điều này trong phần Tiêu đề HTTP bên dưới.
301 moved permanently
302 moved temporarily
Loại chuyển hướng khác là mã trạng thái HTTP 302, cho biết một trang đã được thay thế tạm thời bằng một URL khác.
Trong ngắn hạn, điều này có nghĩa là các công cụ tìm kiếm sẽ giữ URL gốc trong chỉ mục của họ, trong khi người dùng được đưa đến URL mục tiêu của chuyển hướng. Tuy nhiên, về lâu dài, Google hiểu chuyển hướng 302 là chuyển hướng 301 vĩnh viễn và sẽ bắt đầu xử lý nó cho phù hợp.
Google chủ yếu thu thập thông tin từ các địa chỉ IP có trụ sở tại Hoa Kỳ, do đó, chuyển hướng 302 tự động cho tất cả lưu lượng truy cập Hoa Kỳ có nghĩa là Google sẽ chỉ thấy nội dung Hoa Kỳ của một trang web. Các phiên bản quốc gia và ngôn ngữ khác sẽ vô hình đối với Google trừ khi bạn tìm cách tạo ngoại lệ cho Googlebot.
304 not modified
Mã trạng thái 304 HTTP không được sử dụng thường xuyên. Những gì mã này làm là thông báo cho các trình duyệt và trình thu thập thông tin của công cụ tìm kiếm rằng tài nguyên không thay đổi kể từ lần truy cập cuối cùng. Điều này có nghĩa là tài nguyên không phải được gửi lại trên internet và khách hàng chỉ có thể dựa vào phiên bản của tài nguyên đã được lưu trong bộ nhớ cache.
Đối với các trang web lớn, việc áp dụng hợp lý các mã trạng thái 304 có thể giúp tiết kiệm rất nhiều tài nguyên máy chủ. Nếu bạn cung cấp 304 tài nguyên cho Googlebot khi một trang chưa được cập nhật kể từ lần thu thập thông tin cuối cùng, thì trang (và tất cả các tài nguyên liên quan của nó) không cần phải được tạo hoặc gửi qua internet, vì vậy bạn có thể bảo vệ rất nhiều các chu kỳ và băng thông của đơn vị xử lý trung tâm (CPU).
307 temporary redirect
Mã trạng thái HTTP 307 là một cờ sai. Đôi khi, chúng tôi thấy nó trên các trang web được phân phát qua HTTPS và nằm trong danh sách tải trước HSTS. Theo Dự án Chromium:
HSTS yêu cầu trình duyệt luôn sử dụng HTTPS. HSTS được hỗ trợ trong Google Chrome, Firefox, Safari, Opera, Edt và Internet Explorer.
Về cơ bản, những gì xảy ra với 307 là trình duyệt nhận ra một yêu cầu được gửi đến http://website.com thay vì đến https : //website.com và sẽ chuyển thẳng đến đó.
Vì vậy, nó không thực sự là một mã phản hồi HTTP; máy chủ của trang web không bao giờ thấy yêu cầu ban đầu. Trình duyệt tự thực hiện chuyển hướng này, vì nó biết (do danh sách Tải trước HSTS) rằng URL được đề cập được phân phát qua HTTPS chứ không phải HTTP. Google, PayPal, Twitter, Stripe, DropBox, Facebook và LastPass là một số trang web nổi tiếng trong danh sách HSTS được tải trước.
Plugin Đường dẫn chuyển hướng Ayima sẽ hiển thị điều này tương ứng:

404 not found & 410 gone
Trong phạm vi 400 mã trạng thái HTTP, có hai mã tôi muốn làm nổi bật vì chúng rất quan trọng đối với SEO.
Đầu tiên và phổ biến nhất là mã trạng thái HTTP 404 not found. Điều này cho thấy rằng URL không tồn tại và Google Search Console sẽ hiển thị những lỗi này trong báo cáo Lỗi thu thập thông tin của trang web. Thông thường, 404 phản hồi là kết quả của một liên kết bị lỗi ở đâu đó trên trang web mà Google phát hiện ra và sau đó cố gắng thu thập thông tin.
Một trang web sẽ bắt đầu phân phát phản hồi HTTP 404 không tìm thấy trên một trang sau khi nó đã bị xóa. Theo tôi, bạn không nên để điều này xảy ra. Lỗi 404 là dấu hiệu của một lỗi vô tình, một liên kết được nhập sai ở đâu đó. Nếu một URL được sử dụng để phân phát nội dung hợp lệ đã bị xóa, bạn không nên phân phát 404; bạn nên chuyển hướng URL 301 đến một trang hoạt động hợp lệ hoặc cung cấp mã trạng thái 410 đã biến mất.
Phản hồi HTTP 410 biến mất là "404 có chủ ý" Với câu trả lời 410, bạn đang nói rằng có, đã từng có một trang ở đây, nhưng nó đã bị xóa vĩnh viễn.
Các công cụ tìm kiếm xử lý 410s khác với 404s. Mặc dù cả hai mã trạng thái đều được báo cáo trong Google Search Console là lỗi "không tìm thấy", nhưng 410 là một tín hiệu rõ ràng để Google xóa URL đó khỏi chỉ mục của nó. Mặc dù Google sẽ giải thích lỗi 404 là một lỗi ngẫu nhiên và sẽ giữ một URL phân phát 404 trong chỉ mục của nó trong một thời gian, phản hồi 410 được coi là một yêu cầu rõ ràng để xóa URL đó khỏi chỉ mục của Google.
429 too many requests

Phản hồi 429 cho biết khách hàng đã thực hiện quá nhiều yêu cầu trong một khoảng thời gian nhất định và thay vì phản hồi thích hợp của URL, bạn sẽ nhận được phản hồi 429. Đây là kết quả của một số dạng công nghệ giới hạn tỷ lệ để ngăn các trang web bị quá tải bởi các yêu cầu bên ngoài. Thông thường, nó cũng sẽ gây trở ngại cho việc thu thập thông tin trên một trang web bởi các công cụ SEO và bạn có thể cần yêu cầu nhóm kỹ thuật của trang web tạo một ngoại lệ cho (các) địa chỉ IP mà bạn sử dụng để thu thập dữ liệu trang web.
Một số công nghệ giới hạn tốc độ cũng chặn Googlebot theo cách này, điều này có thể gây ảnh hưởng sâu sắc đến tốc độ và hiệu quả mà Google có thể thu thập dữ liệu một trang web.
Điều này có thể khó xác định vì Google không báo cáo 429 phản hồi trong Search Console. Nếu một trang web sử dụng công nghệ giới hạn tỷ lệ, bạn nên kiểm tra kỹ để đảm bảo rằng có một ngoại lệ dành cho các lần thu thập thông tin Googlebot hợp lệ.
500 internal server error and 503 service unavailable
Bất kỳ loại phản hồi HTTP 5XX nào đều chỉ ra một số loại vấn đề phía máy chủ. Chúng là những mã cần tránh càng nhiều càng tốt.
Chúng khá phổ biến, đặc biệt là trên các trang web quy mô lớn. Google báo cáo các lỗi máy chủ này trong Search Console:

Vì vậy, những lỗi này có ảnh hưởng tương tự như phản hồi 429 và có thể ảnh hưởng đến tốc độ thu thập dữ liệu của trang web. Kết quả có thể thấy rõ là sự chậm trễ trong việc lập chỉ mục nội dung mới hoặc thay đổi. Theo quy định, một trang web phải giảm thiểu số lượng phản hồi HTTP 5XX mà nó phân phát.
Nếu bạn hoàn toàn phải gửi thông báo lỗi 5XX, chẳng hạn như khi bạn gỡ trang web xuống để bảo trì, bạn nên luôn sử dụng mã trạng thái HTTP không khả dụng của dịch vụ 503.
503 là 500 gì so với 410 đối với 404: Đó là một tín hiệu có chủ ý, vì vậy các trình thu thập thông tin như Googlebot biết bạn đã cố tình gỡ trang web xuống.
Chỉ khi lỗi 503 tồn tại trong một thời gian dài, Google sẽ bắt đầu giải thích nó là một lỗi dai dẳng và cập nhật chỉ mục của nó cho phù hợp.
Tiêu đề HTTP
Do tính chất có thể mở rộng của tiêu đề HTTP, không có giới hạn nào cho phản hồi tiêu đề HTTP đầy đủ của URL có thể chứa https://light.com.vn/dich-vu-thiet-ke-website-chuan-seo-chuyen-nghiep.
Hãy xem xét một số yếu tố tiêu đề HTTP quan trọng cho SEO tiếp theo.
Liên kết chuẩn
Chúng tôi đã quen với việc tìm kiếm các thẻ chuẩn trong mã nguồn ngôn ngữ đánh dấu siêu văn bản (HTML) của trang web. Tuy nhiên, bạn cũng có thể gửi một liên kết chuẩn như một phần của Tiêu đề HTTP của URL. Điều này được Google hỗ trợ đầy đủ và có tác động giống hệt như liên kết rel = canonical trong nguồn HTML của trang.