Html狀態(tài)碼也是網(wǎng)站與spider進(jìn)行交流的渠道之一,會(huì)告訴spider網(wǎng)頁(yè)目前的狀態(tài),spider再來(lái)決定下一步該怎么做——抓or不抓or下次再來(lái)看看。對(duì)于200狀態(tài)碼大家已經(jīng)很熟了,那么我們來(lái)介紹幾種常見(jiàn)的失效網(wǎng)頁(yè)使用的狀態(tài)碼:
【404】404返回碼的含義是“NOT FOUND”,百度會(huì)認(rèn)為網(wǎng)頁(yè)已經(jīng)失效,那么通常會(huì)從搜索結(jié)果中刪除,并且短期內(nèi)spider再次發(fā)現(xiàn)這條url也不會(huì)抓取。
【503】503返回碼的含義是“Service Unavailable”,百度會(huì)認(rèn)為該網(wǎng)頁(yè)臨時(shí)不可訪問(wèn),通常網(wǎng)站臨時(shí)關(guān)閉,帶寬有限等會(huì)產(chǎn)生這種情況。對(duì)于網(wǎng)頁(yè)返回503,百度spider不會(huì)把這條url直接刪除,短期內(nèi)會(huì)再訪問(wèn)。屆時(shí)如果網(wǎng)頁(yè)已恢復(fù),則正常抓取;如果繼續(xù)返回503,短期內(nèi)還會(huì)反復(fù)訪問(wèn)幾次。但是如果網(wǎng)頁(yè)長(zhǎng)期返回503,那么這個(gè)url仍會(huì)被百度認(rèn)為是失效鏈接,從搜索結(jié)果中刪除。
【301】301返回碼的含義是“Moved Permanently”,百度會(huì)認(rèn)為網(wǎng)頁(yè)當(dāng)前跳轉(zhuǎn)至新url。當(dāng)遇到站點(diǎn)遷移,域名更換、站點(diǎn)改版的情況時(shí),推薦使用301返回碼,盡量減少改版帶來(lái)的流量損失。雖然百度spider現(xiàn)在對(duì)301跳轉(zhuǎn)的響應(yīng)周期較長(zhǎng),但我們還是推薦大家這么做。
一些網(wǎng)站把未建好的頁(yè)面上線,并且這些頁(yè)面在被百度抓取的時(shí)候返回碼是404,于是頁(yè)面被百度抓取后會(huì)被當(dāng)成死鏈直接刪除。但是這個(gè)頁(yè)面在第二天或者過(guò)幾天就會(huì)建好,并上線到網(wǎng)站內(nèi)展現(xiàn)出來(lái),但是由于之前已經(jīng)被百度當(dāng)做死鏈刪除,所以需要再次等這些鏈接被發(fā)現(xiàn)然后抓取才能展現(xiàn),這樣的操作最終會(huì)導(dǎo)致一些頁(yè)面在一段時(shí)間內(nèi)不會(huì)在百度出現(xiàn)。比如某個(gè)大型門戶網(wǎng)站爆出大量新聞時(shí)效性很強(qiáng)的專題未被百度及時(shí)收錄的問(wèn)題,經(jīng)檢查驗(yàn)證后發(fā)現(xiàn)就是因?yàn)轫?yè)面未建成就放置在線上,并返回404狀態(tài)碼,被百度當(dāng)成死鏈刪除,造成收錄和流量損失。
對(duì)于這樣的問(wèn)題,建議網(wǎng)站使用503返回碼,這樣百度的抓取器接到503返回碼后,會(huì)在隔一段時(shí)間再去訪問(wèn)這個(gè)地址,在您的頁(yè)面建好上線后,就又能被重新抓取,保證頁(yè)面及時(shí)被抓取和索引,避免未建好的內(nèi)容設(shè)為404后帶來(lái)不必要的收錄和流量損失。
其它建議和總結(jié):
1、如果百度spider對(duì)您的站點(diǎn)抓取壓力過(guò)大,請(qǐng)盡量不要使用404,同樣建議返回503。這樣百度spider會(huì)過(guò)段時(shí)間再來(lái)嘗試抓取這個(gè)鏈接,如果那個(gè)時(shí)間站點(diǎn)空閑,那它就會(huì)被成功抓取了
2、如果站點(diǎn)臨時(shí)關(guān)閉或者頁(yè)面暫未建好上線,當(dāng)網(wǎng)頁(yè)不能打開(kāi)時(shí)以及沒(méi)有建好時(shí),不要立即返回404,建議使用503狀態(tài)。503可以告知百度spider該頁(yè)面臨時(shí)不可訪問(wèn),請(qǐng)過(guò)段時(shí)間再重試。