域名注冊 網站制作
您現(xiàn)在的位置:首頁 >> SEO優(yōu)化 >> 內容

搜索引擎工作原理

時間:2013/12/18 15:31:08 點擊:3886

摘要:在正式學習SEO之前,你還需要學習一下搜索引擎的工作原理,畢竟SEO是針對搜索引擎進行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些問題的時候,你就可以知道問題產生的原因了。一個搜索引擎,一般由...

在正式學習SEO之前,你還需要學習一下搜索引擎的工作原理,畢竟SEO是針對搜索引擎進行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些問題的時候,你就可以知道問題產生的原因了。一個搜索引擎,一般由下面幾個模塊組成:
1、抓取模塊
2、過濾模塊
3、收錄模塊
4、排序模塊

抓取模塊
搜索引擎在運作的時候,第一個工作就是要去互聯(lián)網上面抓取頁面,而實現(xiàn)這個工作的模塊,我們稱為抓取模塊。學習抓取模塊,我們需要先了解下面幾個知識點:
1、搜索引擎抓取程序:蜘蛛
搜索引擎為了可以自動抓取互聯(lián)網上面數(shù)以萬計的網頁,必須有一個全自動的頁面抓取程序。而這個程序我們一般稱之為“蜘蛛”(也可以叫做“機器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般稱為百度蜘蛛。
谷歌的抓取程序,一般稱為谷歌機器人。
360的抓取程序,一般稱為360蜘蛛。
其實,不管叫做蜘蛛,還是機器人,你只要知道這個指的是搜索引擎的抓取程序,就可以了。蜘蛛的任務很簡單,就是順著鏈接不斷的抓取互聯(lián)網上,自己還沒有收錄過的網頁和鏈接,然后將抓取到的網頁信息和鏈接信息存儲到自己的網頁數(shù)據(jù)庫中。而這些抓取到的網頁,將有機會出現(xiàn)在最終的搜索結果中。
2、怎么讓蜘蛛來抓取我們的網站
通過上面對蜘蛛的解釋,我們能夠知道:要想自己的頁面最終出現(xiàn)在搜索結果中,首先得讓蜘蛛抓取到我們的網站。通過下面三種方法可以讓蜘蛛來抓取我們的網站
外部鏈接我們可以在一些已經被搜索引擎收錄的網站上面發(fā)布自己網站的鏈接,以此吸引蜘蛛,或者交換友情鏈接也是一個常用的方法。
提交鏈接:百度為站長們提供了鏈接提交的工具,通過這個工具,我們只需要通過這個工具提交給百度,那么百度就會派出蜘蛛來抓取我們網頁了。
百度網址提交工具網址(如圖所示):
http://zhanzhang.baidu.com/linksubmit/URL
搜索引擎工作原理

蜘蛛自己來抓。如果你希望蜘蛛能夠定期主動來自己的網站抓取網頁,那么你就必須提供優(yōu)質的網站內容。只有蜘蛛發(fā)現(xiàn)你的網站的內容質量很好,那么蜘蛛就會特別關照你的網站,定時會來你的網站看看是不是新的內容產生。如何才能夠確保自己的網站能夠提供優(yōu)勢的內容,這個話題我們在之后的章節(jié)再做闡述。
3、怎么知道蜘蛛來過我們網站
通過下面2個方式可以知道蜘蛛是否來過我們的網站。
(1)百度抓取頻次工具
該工具網址為:http://zhanzhang.baidu.com/pressure/index
搜索引擎工作原理
(2)服務器IIS日志
如果你的服務器開啟了IIS日志功能,那么也可以通過IIS日志文件看到蜘蛛來過的痕跡。通過IIS日志我們可以發(fā)現(xiàn)百度蜘蛛抓取我們那些頁面。
4、影響蜘蛛抓取的因素
好了,我們知道了網站想要有排名,第一步就是必須能夠被蜘蛛抓取到。那么那些因素有可能造成蜘蛛無法正常抓取我們網頁呢,我們應該注意下面幾個要點:
(1)網址不能過長:百度建議網址的長度不要超過256個字節(jié)(一個英文字母(不分大小寫))占一個字節(jié)的空間,一個中文漢字占兩個字節(jié)的空間)。
(2)網址中不要包含中文:百度對于中文網址的抓取效果都是比較差的,所以在網址內千萬不要帶有中文。
(3)服務器問題:如果你的服務器質量太差,總是打不開,那么也會影響蜘蛛的抓取效果。
(4)Robots.txt屏蔽:有的SEO人員由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路徑或者頁面。這也會影響到百度對于我們網站的抓取效果。
(5)避免出現(xiàn)蜘蛛難以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html這種URL蜘蛛無法理解會放棄抓取。
(6)注意動態(tài)參數(shù)不要太多太復雜,目前百度對動態(tài)URL已經有了很好的處理,但是參數(shù)過多且復雜的url有可能被蜘蛛認為不重要而拋棄。這點尤為重要,一定注意。

過濾模塊
由于互聯(lián)網上充斥著大量的垃圾頁面和無內容頁面,而這些頁面不管對于搜索引擎,還是搜索用戶來說,都是不需要的。所以搜索搜索引擎為了避免這些垃圾頁面占用自己寶貴的存儲資源,所以會對蜘蛛抓取回來的內容進行過濾。完成這個功能的模塊,我們就稱為過濾模塊。那么那些因素會影響到過濾模塊呢,有下面2點:
(1)識別
由于搜索引擎的蜘蛛目前最擅長的還是分析文字和鏈接,對于圖片和視頻的識別還是比較困難的。所以假如一個頁面主要都是圖片和視頻話,那么搜索引擎很難識別出該頁面的內容。而對于這種頁面,搜索引擎有可能當作垃圾網站進行過濾掉。所以,我們在編輯網站內容的時候,應該多添加一些文字描述,這樣才不容易被過濾模塊過濾掉。
(2)內容質量
在可以識別內容的基礎之上,搜索引擎還會將抓取到的網頁內容,與已經存到數(shù)據(jù)庫中的內容進行對比。如果搜索引擎發(fā)現(xiàn)你的頁面內容質量與數(shù)據(jù)庫中的內容大部分都是重復的,或者相比之下質量更差的話,那么這個頁面也會被過濾掉。

收錄模塊
將通過了過濾模塊“考核”的網頁,進行分詞、數(shù)據(jù)格式標準化,然后將其存儲到索引數(shù)據(jù)庫中程序模塊,我們稱之為收錄模塊。如果你的網站有幸通過收錄模塊,那么就有機會獲得排名了。
1、如何查看某個網頁是否被收錄
最簡單的辦法,就是把該網頁的網址復制到百度搜索框中進行搜索,如果能夠出現(xiàn)該頁面的搜索結果,那么就說明該網址已經被收錄了。
圖片

2、如何查看一個網站的收錄量
有2個方法:
(1)site命令
通過“site:域名”的命令,我們可以看到搜索引擎抓取了某個域名下的頁面收錄量:
圖片

(2)百度“索引量”查詢工具
通過百度官方提供的“索引量”查詢工具,也可以查詢到我們網站的收錄量。
收錄量少怎么辦?
這個分兩種情況:
(1)新站
一般來說,新站剛上線,起碼要1~2個月才會開始收錄。前期一般只是收錄一個首頁而已。對于這個情況,沒有別的辦法,因為百度為了防止**的泛濫,特地把新站的審核時間拉長。所以,如果你操作的是新站,那么收錄量少不用緊張,只要你老老實實的提供優(yōu)質內容,那么2個月之后百度就會開始收錄你的內頁了。
(2)老站
有的老站會出現(xiàn)收錄量少,甚至是收錄量開始減少的時候。一般都是因為該網站的內頁內容質量太差導致的。
這個時候站長應該趕緊調整整站的內容質量,提供優(yōu)質的內容才有可能確保自己的網站排名不會變動。

排序模塊
對存入索引數(shù)據(jù)庫中的頁面,通過一系列算法后得到每個頁面的權重,并且將其進行排序處理的程序,稱之為排序模塊。
如果你的頁面通過排序模塊的計算,排在了某個關鍵詞的前幾位的話,那么當搜索用戶搜索該關鍵詞的時候,你的頁面就可以展現(xiàn)在用戶的面前了。想要讓自己的網站能夠獲得良好的排名,需要做到下面2點:
1、完善基礎優(yōu)化
想要獲得良好的排名,那么你的網頁首先要做好基礎優(yōu)化,這包括網站定位、網站結構、網站布局、網站內容等幾個部分。這些基礎優(yōu)化的內容,我們將在后面詳細闡述。只有把這些基礎部分完善優(yōu)化好了,才算是及格了。
2、綜合數(shù)據(jù)良好
在基礎優(yōu)化做好的基礎上,假如你的百度統(tǒng)計后臺數(shù)據(jù)表現(xiàn)良好,用戶的忠誠度以及站外推廣的效果顯著的話,就會在及格線上加分。只要你的加分超過了所有的競爭對手,那么你的網站就可以排在所有對手的前面了。

總結
本文為你講解了搜索引擎的工作原理,那么掌握這一原理對于你學習SEO有什么幫助呢?
幫助就在于當你遇到一些SEO技術問題的時候,可以通過搜索引擎的工作原理找到原因。
比如你是一個新站,做了1個月發(fā)現(xiàn)只收錄了首頁。這個時候你可以知道那是因為收錄模塊對于新站有一個考核期,所以這屬于正,F(xiàn)象。
有或者你發(fā)現(xiàn)自己網站的文章收錄正常,但是沒有排名,這個時候你就知道你的文章雖然被收錄模塊收錄了,但是由于基礎優(yōu)化和綜合數(shù)據(jù)不夠良好,所以排序模塊沒有給出良好的排名。因此你可以知道接下來的工作應該是提升網站的內容質量。
所以,掌握搜索引擎的工作原理,對于我們學習SEO是至關重要的。

轉載請保留原文地址: http://www.fij982.cn/show-762.html

責編:王麗 作者:不詳 來源:網絡