Submitted url seems to be a soft 404的问题解决

Soft 404

前几天看见控制台中显示某个网页出错,错误内容:

submitted url seems to be a soft 404

一搜索,谷歌官方有说明,首先给出了定义:

A soft 404 is a URL that returns a page telling the user that the page does not exist and also a 200-level (success) code. In some cases, it might be a page with little or no content–for example, a sparsely populated or empty page.

通俗地说,就是某个页面返回给爬虫一个200状态码,但是爬虫却发现返回的内容是一个空网页。
对于非静态网页而言,这时就要检查是否有代码逻辑错误。但是,我用的是虚拟主机托管的静态网页,按理不会出现这种情况。
于是,检查了下托管的内容和上传日志,还真发现了痕迹:原来某次同步结束的时候,某个网页的大小变成了 0 。于是,这种情况下,访问该页面就造成了 soft 404。于是赶紧上传了一份,再用工具一查,没有异常;随后请求 reindex。看来以后同步结束后,还需要检查一遍文件,防止再次发生该错误。

参考

Google: Soft 404 errors

Comments