在蜘蛛實(shí)際抓取網(wǎng)頁的過程中,因?yàn)榫W(wǎng)頁內(nèi)容的復(fù)雜性(文本、Flash、 視頻等)和技術(shù)實(shí)現(xiàn)的多樣性(純靜態(tài)、動態(tài)加載等),為了更高效地利用蛛蛛資源,搜索引擎公司會置頂不同的抓取策略,作為SEO人員,可以參考搜素引擎公司對抓取策略的描述,采用大化的SEO方法。
作為國內(nèi)大的搜索引擎公司,百度在它的官方文檔中是如下這樣描述抓取策略的。
互聯(lián)網(wǎng)資源具有龐大的數(shù)量級,這就要求抓取系統(tǒng)盡可能高效地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取到有價值的資源。這就造成了另一個問題,耗費(fèi)被抓取網(wǎng)站的帶寬造成訪問壓力,如果程度過大,將直接影響被抓取網(wǎng)站的正常用戶訪問行為。因此,在抓取過程中要進(jìn)行一定的抓取壓力控制,實(shí)現(xiàn)既不影響網(wǎng)站的正常用戶訪問,又能盡量多地抓取到有價值資源的目標(biāo)。
通常情況下,采用的問題。實(shí)際工作中,往往根據(jù)IP及域名的多種條件進(jìn)行壓力控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力,這時Baiduspider將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制。
對同一個站點(diǎn)的抓取速度控制一般分為兩類:其一 ,一段時間內(nèi)的抓取頻率;其二,一段時間內(nèi)的抓取流量。同一站點(diǎn)不同的時間抓取速度也會不同,例如,夜深人靜的時候抓取的可能就會快一些。 也視具體站點(diǎn)類型而定,主要思想是錯開正常用戶訪問高峰,不斷地調(diào)整。對于不同站點(diǎn),也需要不同的抓取速度。
上面的描述很簡潔,但是從這個描述里面,我們可以得到啟發(fā),蜘蛛抓取頁面是有壓力控制的,對于特別大型的網(wǎng)站來說,不可能指望蜘蛛爬行到一個網(wǎng)站后,會一次性抓取到所有的網(wǎng)站,因此,作為SEO人員來說,盡量減少蜘蛛的壓力,對網(wǎng)站的網(wǎng)頁收錄是有好處的。一般來說,減輕蜘蛛壓力有以下兩種方法。
方法一:采用Nofollow (反垃圾鏈接的標(biāo)簽)的策略,將蜘蛛引導(dǎo)到有價值的頁面。Nofollow標(biāo)簽用來告訴蜘蛛,如果遇到帶著此標(biāo)簽的頁面或者鏈接,就不要繼續(xù)追蹤了,這樣蜘蛛就可以爬行到其他更加有用的頁面。
方法二:在Sitetap中定義不同頁面的權(quán)重和更新頻率,就是在網(wǎng)站的Sitemap文件中,定義好每個鏈接的權(quán)重和更新的頻率,這樣,蜘蛛在爬行到這些鏈接和頁面的時候,會識別哪些頁面比較重要, 可以重點(diǎn)抓取,哪些頁面更新比較頻繁,需要蜘蛛分配更多的注意力。網(wǎng)站式新聞動態(tài)
作為國內(nèi)大的搜索引擎公司,百度在它的官方文檔中是如下這樣描述抓取策略的。
互聯(lián)網(wǎng)資源具有龐大的數(shù)量級,這就要求抓取系統(tǒng)盡可能高效地利用帶寬,在有限的硬件和帶寬資源下盡可能多地抓取到有價值的資源。這就造成了另一個問題,耗費(fèi)被抓取網(wǎng)站的帶寬造成訪問壓力,如果程度過大,將直接影響被抓取網(wǎng)站的正常用戶訪問行為。因此,在抓取過程中要進(jìn)行一定的抓取壓力控制,實(shí)現(xiàn)既不影響網(wǎng)站的正常用戶訪問,又能盡量多地抓取到有價值資源的目標(biāo)。
通常情況下,采用的問題。實(shí)際工作中,往往根據(jù)IP及域名的多種條件進(jìn)行壓力控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調(diào)配對自己網(wǎng)站的抓取壓力,這時Baiduspider將優(yōu)先按照站長的要求進(jìn)行抓取壓力控制。
對同一個站點(diǎn)的抓取速度控制一般分為兩類:其一 ,一段時間內(nèi)的抓取頻率;其二,一段時間內(nèi)的抓取流量。同一站點(diǎn)不同的時間抓取速度也會不同,例如,夜深人靜的時候抓取的可能就會快一些。 也視具體站點(diǎn)類型而定,主要思想是錯開正常用戶訪問高峰,不斷地調(diào)整。對于不同站點(diǎn),也需要不同的抓取速度。
上面的描述很簡潔,但是從這個描述里面,我們可以得到啟發(fā),蜘蛛抓取頁面是有壓力控制的,對于特別大型的網(wǎng)站來說,不可能指望蜘蛛爬行到一個網(wǎng)站后,會一次性抓取到所有的網(wǎng)站,因此,作為SEO人員來說,盡量減少蜘蛛的壓力,對網(wǎng)站的網(wǎng)頁收錄是有好處的。一般來說,減輕蜘蛛壓力有以下兩種方法。
方法一:采用Nofollow (反垃圾鏈接的標(biāo)簽)的策略,將蜘蛛引導(dǎo)到有價值的頁面。Nofollow標(biāo)簽用來告訴蜘蛛,如果遇到帶著此標(biāo)簽的頁面或者鏈接,就不要繼續(xù)追蹤了,這樣蜘蛛就可以爬行到其他更加有用的頁面。
方法二:在Sitetap中定義不同頁面的權(quán)重和更新頻率,就是在網(wǎng)站的Sitemap文件中,定義好每個鏈接的權(quán)重和更新的頻率,這樣,蜘蛛在爬行到這些鏈接和頁面的時候,會識別哪些頁面比較重要, 可以重點(diǎn)抓取,哪些頁面更新比較頻繁,需要蜘蛛分配更多的注意力。網(wǎng)站式新聞動態(tài)
- 上一篇: 應(yīng)對蜘蛛頁面抓取異常
- 下一篇:收錄-搜索引擎蜘蛛的工作原理
良言多米網(wǎng)絡(luò)憑借多年的網(wǎng)站優(yōu)化經(jīng)驗(yàn),堅持以“幫助中小企業(yè)實(shí)現(xiàn)網(wǎng)絡(luò)營銷化”為宗旨,累計為數(shù)百家客戶提供品質(zhì)建站服務(wù),得到了客戶的一致好評。如果您有北京網(wǎng)站建設(shè)、網(wǎng)站推廣、SEO外包、軟文營銷、百度推廣等方面的需求...
請立即點(diǎn)擊咨詢我們或撥打咨詢熱線:13383168502,我們會詳細(xì)為你一一解答你心中的疑難。項目經(jīng)理在線
請立即點(diǎn)擊咨詢我們或撥打咨詢熱線:13383168502,我們會詳細(xì)為你一一解答你心中的疑難。項目經(jīng)理在線