下載日志,再使用工具editplus打開(kāi)日志
一、查看有沒(méi)有大量重復(fù)訪(fǎng)問(wèn)的IP
一般這種IP都是搜索引擎抓取IP段,比如谷歌蜘蛛抓取(Googlebot),百度蜘蛛抓取(Baiduspider、Baiduspider-render)。
注意:Baiduspider-render是訪(fǎng)問(wèn)網(wǎng)站的 CSS、Javascript 和圖片信息。
如果查看到這個(gè)蜘蛛出現(xiàn)的次數(shù)很多,而客戶(hù)網(wǎng)站圖片又比較大,則消耗的流量就會(huì)增加,建議把圖片處理小。
IP段:
谷歌蜘蛛(Googlebot):
百度蜘蛛(Baiduspider):
百度蜘蛛(Baiduspider-render):
針對(duì)以上的異常蜘蛛抓取,處理方法如下:
1、在后臺(tái)robots禁止谷歌抓取
User-agent: Googlebot
Disallow: /
參考位置,加在這里:
2、調(diào)低百度蜘蛛抓取頻率。
登陸百度站長(zhǎng)調(diào)整。
3、還有個(gè)方法,就是幫屏蔽這些抓取IP(僅限客戶(hù)自有服務(wù)器)。
二、移動(dòng)端抓取
思途cms系統(tǒng),后臺(tái)做的robots屏蔽僅針對(duì)PC端,手機(jī)端沒(méi)做。
但可以把robots屏蔽里面的代碼另存為txt文檔,上傳到服務(wù)器手機(jī)端根目錄下。
主要就是1、2點(diǎn),屏蔽搜索引擎的大量抓取,再觀察后續(xù)流量是否降低。
其他處理(針對(duì)網(wǎng)站優(yōu)化)
三、屏蔽列表頁(yè)抓取
為什么要屏蔽搜索引擎抓取列表頁(yè)?
原因:列表頁(yè)url很長(zhǎng),收錄也沒(méi)內(nèi)容,對(duì)于排名沒(méi)作用,還會(huì)分散權(quán)重
看日志里,搜索引擎訪(fǎng)問(wèn)的頁(yè)面鏈接地址,分辨列表頁(yè):
以上這些就是列表頁(yè),可以看到搜索引擎抓取了很多列表頁(yè)。
Disallow: /*-*
Disallow: /*?*
用這段代碼,屏蔽搜索引擎抓取列表頁(yè)。
可以加在這個(gè)位置:
四、處理404頁(yè)面
訪(fǎng)問(wèn)日志中如看到大量404頁(yè)面,就要去百度站長(zhǎng)提交處理死鏈
在HTTP/1.1 后面,是404就表示訪(fǎng)問(wèn)的頁(yè)面已經(jīng)不在了,死頁(yè)面,要處理;
后面顯示200,就表示正常抓取,頁(yè)面存在
其他要點(diǎn):
在網(wǎng)址后面+robots.txt 可以不登錄后臺(tái)就看到它的robots設(shè)置。
會(huì)員評(píng)論