大家好,蝸牛SEO上一節(jié)給大家分享了? HTTP返回狀態(tài)碼的含義,以及詳細使用方法。? 很多朋友都表示很喜歡,內(nèi)容很全面,不少朋友表示對其進行了收藏。接下來呢,蝸牛將給大家繼續(xù)爆一個每個SEOER都喜愛不已的干貨。
搜索引擎爬行,抓取,索引與收錄。相信不止一個朋友,或者所是大多數(shù)朋友都對這個話題特別的感興趣。蝸牛SEO這次就會將這個驚天大秘密悄悄得告訴大家。(一般人我還真不告訴他)。
一、????? 爬行,抓取,索引,收錄原理
首先大家要明白一點,各家搜索引擎有所不同,但是所有搜索引擎的工作原理都是千秋有同的。所以,只要你按照搜索引擎的喜好去做好了,那么,有一家搜索引擎喜歡上了你的網(wǎng)站,其它搜索引擎,想不喜歡都難。因為你已經(jīng)成大眾情人了。
蜘蛛的工作原理是,進入一個網(wǎng)站后,一邊爬行,一邊抓取。它在爬行的過程中沿著鏈接發(fā)現(xiàn)新頁面,然后“爬”過去抓取新頁面。爬行只是一個形象的比喻,實際上并不存在蜘蛛抓取文件時發(fā)現(xiàn)鏈接然后立即跟蹤過去這樣一個過程。
抓取是指蜘蛛發(fā)現(xiàn)新的頁面后,像瀏覽器一樣打開頁面,把頁面HTML代碼和圖像音樂等元素存入數(shù)據(jù)庫。顯然,爬行和抓取是相互交織的。抓取是實際發(fā)生的我們能夠觀察到的過程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時間、狀態(tài)碼、抓取的文件是哪個、抓取了多大文件等等。蜘蛛對頁面的抓取和瀏覽器讀取文件是基本一樣的。蜘蛛抓取文件后存入數(shù)據(jù)庫,程序解析出文件中的鏈接后將URL存入頁面地址庫,然后蜘蛛從地址庫中按一定規(guī)則選取URL進行抓取。蜘蛛不是真的訪問頁面時看到一個URL就爬過去
索引指的是將一個URL的信息進行各種整理,如去重、分詞等等,然后將關(guān)于這個URL的信息存入數(shù)據(jù)庫,被稱為索引庫。要注意的是,索引庫中關(guān)于URL的信息不僅是組成頁面內(nèi)容的關(guān)鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個詞是index。
收錄是SEOer們最關(guān)心也最常用的詞,其實也是4個概念中最不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但進入索引庫的URL并不一定被抓取過,這和SEO們的直覺可能是不一樣的。
二、????? 搜索引擎會把什么樣的數(shù)據(jù)放進索引庫呢?
通過蝸牛SEO的解釋,相信大家已經(jīng)清楚,只有你在網(wǎng)站上有更新,蜘蛛才會爬行過后進行抓取,當蜘蛛把抓取的頁面放進數(shù)據(jù)庫,搜索引擎分析過后認為有價值,他才會將內(nèi)容放進索引庫。那么,搜索引擎會把什么樣的數(shù)據(jù)放進索引庫呢?
新的,權(quán)威的,用戶認可的,很少看見的,我想用這四個詞來形容最好不過了。
新的就是指原創(chuàng)的,在其它任何一個角落搜索引擎都沒有見過的。
權(quán)威的,是指受到信任的,權(quán)重高的,比如騰訊,新浪,搜狐,網(wǎng)易,你在上面發(fā)個垃圾信息,搜索引擎都會去收錄它。因為它的權(quán)重高,它更新的內(nèi)容多,質(zhì)量高,被搜索引擎所重視。
用戶認可的,你寫的內(nèi)容有讓用戶看下去的愿望,如果你寫得內(nèi)容死氣沉沉,用戶看著看著想睡覺,我想,用戶體驗一定不會很好,那么搜索引擎也不會對這樣的網(wǎng)頁給予高的權(quán)重。
很少看見的,比如,四川發(fā)生地震,廣東多了一便SARS病例,深圳舉行大運會,北京舉行奧運會,這樣的信息,這樣的信息是具有很強的時效性的,機會稍縱即逝,所以這樣的網(wǎng)頁搜索引擎一抓到馬上就會把它放進索引庫里面。
三、????? 收錄之后的展現(xiàn)
網(wǎng)頁收錄之后,自然是拿來給用戶看的,那么,我們怎么知道哪些內(nèi)容被收錄了呢?
- 直接通過搜索引擎可以搜索到的數(shù)據(jù)
- 用site或是站長工具查詢到的收錄數(shù)據(jù)。
- 時間決定信任度,搜索引擎最先抓到的一般被認為是原創(chuàng)。
- 收錄之后的排序,收錄到頁面之后,搜索引擎會進行一個排序,根據(jù)相關(guān)度與質(zhì)量來給予相應(yīng)的排序。我們搜索到的一個關(guān)鍵詞的排序一般是由網(wǎng)站信任度與同業(yè)競爭度來決定的,因此出現(xiàn)了一些關(guān)鍵詞很容易排到前面,一些關(guān)鍵詞很難排到前面。
四、????? 如何讓快照更新,如何增加收錄量與關(guān)鍵詞的排名?
- 投搜索引擎之所好,多創(chuàng)作新的,用戶認可的內(nèi)容。養(yǎng)成定時或定期更新的習(xí)慣,讓搜索引擎定時爬取。
- 多創(chuàng)作相關(guān)的,優(yōu)質(zhì)的內(nèi)容,讓搜索引擎與用戶認可你的站點,讓用戶直接訪問網(wǎng)站來獲取內(nèi)容,同時讓搜索引擎根據(jù)用戶的喜好來給你站點高的權(quán)重值。
關(guān)掉本節(jié)的內(nèi)容,蝸牛就講到這里了,如果大家對此話題還意猶未盡,請大家說? 蝸牛SEO博客? 給蝸牛留言或者去找蝸牛一起來研究這個話題。希望本篇文章使大家對搜索引擎對內(nèi)容的收錄有進一步的了解和認識。
轉(zhuǎn)載請注明:?蝸牛SEO? ? 搜索引擎的爬行,抓取,索引與收錄