百度SEO搜索引擎原理的各種算法

搜索引擎檢索和需求

1,搜索引擎基本要求:毫秒級快速反應(yīng),匹配相關(guān)結(jié)果。

2,搜索引擎:一個(gè)大型網(wǎng)絡(luò)應(yīng)用軟件,分布式計(jì)算,高效的索引和存儲技術(shù)。 (搜索引擎大部分時(shí)間是高效的索引和存儲技術(shù),而不是天天跟seo對著干)

3,搜索引擎的目的:為用戶提供相關(guān)網(wǎng)頁或者其他信息(新聞,視頻)

4,匹配:以某種形式包含有檢索詞的網(wǎng)頁或其他信息。并產(chǎn)生一個(gè)列表,也就是排序,我們最關(guān)心的。

5,用戶輸入都是無規(guī)則的簡單的:簡單意味著抽象,抽象意味著有更多的可能性(舉例:蘋果,手機(jī),黃色)搜索結(jié)果豐富多樣

6,搜索引擎為什么給出相關(guān)搜索還有下拉框?

7,用戶行為:找到為止,不是所有的都看一遍,用戶查詢東西基本不會超過2頁,所以搜索引擎要在2頁中顯示盡可能多的可能性。(舉例:seo,數(shù)據(jù)庫查詢)

網(wǎng)頁收集

1,[free]數(shù)據(jù)(實(shí)時(shí)還是預(yù)先收集)預(yù)先收集好

2,蜘蛛(負(fù)責(zé)的工作)            蜘蛛就是下載網(wǎng)頁的一個(gè)小程序

3,調(diào)度(提高效率)              控制蜘蛛捉什么、多久捉一次頁面等等

4,定期收集還是增量收集          搜索引擎是會定期收集,就是大更新,增量收集是根據(jù)每個(gè)網(wǎng)站的更新速度

5,搜索引擎大更新周期(一個(gè)月?15天?)   具體沒統(tǒng)計(jì),不知道

6,種子站點(diǎn)(樞紐頁面)          搜索引擎是先從種子站點(diǎn)優(yōu)先開始抓取的,種子站點(diǎn)就是有大量指向高質(zhì)量網(wǎng)站的站點(diǎn)比如“好123”網(wǎng)址

7,深度優(yōu)先/廣度優(yōu)先             深度優(yōu)先就是首頁-欄目頁-內(nèi)容頁,直接往深捉,廣度優(yōu)先就是先把欄目頁捉完才抓內(nèi)容頁

8,搜索引擎采用的抓取機(jī)制         robots規(guī)則,一般虛擬主機(jī)后臺添加就行,淘寶就是限制百度蜘蛛捉取,淘寶有足夠的驕傲

9,搜索引擎的更新機(jī)制(更新快照) 讓搜索引擎認(rèn)為是原創(chuàng)或偽原創(chuàng)可加快更新

10,sitemap(網(wǎng)站地圖)增加收錄的好東西  適合網(wǎng)站信息很大,收錄少的網(wǎng)站,網(wǎng)站地圖就讓蜘蛛在一個(gè)頁面發(fā)現(xiàn)大量URL,作用就是吸引蜘蛛深度捉取

11,實(shí)行新(搜索引擎/自己的數(shù)據(jù)庫)盡量,搜索引擎無法保證,所以有時(shí)候改了網(wǎng)站的標(biāo)題和摘要,也不會馬上顯示出來再互聯(lián)網(wǎng)上。

預(yù)處理

網(wǎng)頁預(yù)處理的大致過程:

1,關(guān)鍵詞的提取(去除噪音)         噪音就是網(wǎng)頁中不重要的版塊,與網(wǎng)站主題不相關(guān),比如廣告之類,通常都用框架和JS調(diào)用

2,切詞,去除停止詞                 切詞網(wǎng)址(參考):zyan.cc/demo/httpcws/; 停止詞就是語氣詞,基本互聯(lián)網(wǎng)上都出現(xiàn)的詞

3,鏡像網(wǎng)頁的消除(完全相同)       鏡像網(wǎng)頁就是兩個(gè)頁面一模一樣,所以設(shè)置好偽靜態(tài)后,要用robots文件把動態(tài)url禁止掉

4,轉(zhuǎn)摘(額外少量編輯,稱為近似鏡像網(wǎng)頁)       搜索引擎會把這些過濾掉(垃圾頁面),轉(zhuǎn)摘非常不利于SEO優(yōu)化

5,鏈接的分析(記錄鏈接位置,相關(guān)性,錨文本)   定義有效的鏈接:標(biāo)準(zhǔn)的a標(biāo)簽;會計(jì)算這個(gè)鏈接跟當(dāng)前頁面的相關(guān)性,不相關(guān)就會被容易列為噪音版塊

6,網(wǎng)頁重要度計(jì)算(被應(yīng)用的多就是重要的)       被引用得多就是重要的,也就是外鏈(其中一個(gè)因素)

7,建立索引                                     正排索引(頁面到關(guān)鍵詞) 倒排索引(關(guān)鍵詞到頁面)

查詢接口

預(yù)處理后得到的網(wǎng)頁表現(xiàn)形式

1,原始頁面,url,標(biāo)題;看不到的:文檔編號,關(guān)鍵詞集合和權(quán)值位置信息(詞位),其他一些指標(biāo)     原始網(wǎng)頁就是你的網(wǎng)頁打不開了,但是百度快照是可以打開的,這個(gè)就是原始頁面

2,網(wǎng)頁重要度                         被多小個(gè)網(wǎng)頁引用

3,網(wǎng)頁類別(導(dǎo)航,需求,信息)       導(dǎo)航類別查詢:比如記不住網(wǎng)址,去百度搜索找官方網(wǎng)站這樣子,比如“QQ下載”就是需求型;信息就是比如搜索“SEO是什么意思”之類

4,查詢詞處理(切詞,獲取分類,排序) 搜索引擎可以進(jìn)行切詞,然后組合關(guān)鍵詞同時(shí)出現(xiàn)的就是用戶搜索需求頁面

5,全文索引(不局限于標(biāo)題)

6,pr算法                             就是做排名,SEO

7,文檔摘要(動態(tài)摘要)