讓每一個企業都(dōu)擁有适合自(zì)己的互聯網應用方案-安慶中拓科(kē)技   網站(zhàn)首頁 > 優化知識
 
搜索引擎的頁面收錄原理(lǐ)
來(lái)源:aqseo.cn 發布時間:2014-6-5
    搜索引擎工(gōng)作(zuò)原理(lǐ)一個SEO從(cóng)業者應該了解的基礎課程,但(dàn)是有人(rén)卻說(shuō)搜索引擎工(gōng)作(zuò)原理(lǐ)對于新手來(lái)說(shuō)是不容易理(lǐ)解的,因爲工(gōng)作(zuò)原理(lǐ)太抽象,而且搜索引擎的變化無常,無論誰都(dōu)不能真正認識搜索工(gōng)作(zuò)原理(lǐ)。那麽一個頁面是如(rú)何被搜索引擎發現并收錄的呢(ne)?下面安慶網站(zhàn)優化的小編爲您分(fēn)析:
       
    蜘蛛在整個互聯網上爬行遇見(jiàn)你(nǐ)網站(zhàn)的一個URL,首先把URL提取出來(lái)根據網站(zhàn)權重和相(xiàng)關性插入到URL隊列中,然後是判斷你(nǐ)網站(zhàn)的這條URL是否能夠解析成功,如(rú)果能解析成功,蜘蛛會爬到你(nǐ)網站(zhàn),這裡(lǐ)需要說(shuō)一下,蜘蛛并不是直接去(qù)分(fēn)析你(nǐ)網頁的内容,而是去(qù)尋找你(nǐ)網站(zhàn)robots文件(jiàn),根據你(nǐ)網站(zhàn)的robots規則判斷是否抓取你(nǐ)這個頁面,如(rú)果robots文件(jiàn)不存在,則會返回一個404錯誤,但(dàn)是搜索引擎已經會繼續抓取你(nǐ)的網站(zhàn)内容。 
    搜索引擎抓取了網頁内容之後會對網頁進行一個簡單的判斷是否達到了收錄标準,如(rú)果不符合則繼續把URL加入到URL 隊列中,如(rú)果符合收錄就(jiù)會下載網頁内容。  
當搜索引擎拿到下載網頁内容的時候,會提取出頁面上的URL,繼續插入到URL隊列中,然後把頁面上的數據,進行進一步分(fēn)析,判斷網頁内容是否達到收錄标準,如(rú)果達到收錄标準則把頁面存儲到硬盤中。  
    當用戶搜索某個關鍵詞時,搜索引擎爲了減少查詢時間,将一部分(fēn)相(xiàng)關性比較高的内容放(fàng)到臨時緩存區,大(dà)家都(dōu)知道從(cóng)計(jì)算機(jī)的緩存中讀(dú)取數據,比在硬盤中讀(dú)取數據快(kuài)很多。所以搜索引擎隻将緩存中的一部分(fēn)顯示給用戶。被存儲在硬盤中的頁面,搜索引擎會根據網站(zhàn)權重定時對其進判斷是否有更新,是否達到了放(fàng)入緩存區的标準,如(rú)果搜索引擎在判斷是否有更新的同時發現網站(zhàn)頁面被删除或網頁達不到被收錄的标準也會被删除。  
    以上就(jiù)是搜索引擎的頁面收錄原理(lǐ),希望每一位seo人(rén)員(yuán)都(dōu)應掌握。