摘要
萬維網(wǎng)是一個(gè)包含豐富資源的數(shù)據(jù)庫(kù),如何有效地從其中獲取所需信息是網(wǎng)絡(luò)數(shù)據(jù)挖掘的一個(gè)關(guān)鍵問題。從1990年開始,搜索引擎逐漸發(fā)展成為人們?cè)诨ヂ?lián)網(wǎng)上搜索資源的主要方式。傳統(tǒng)搜索引擎的工作機(jī)制基于關(guān)鍵字匹配,它們通常利用網(wǎng)頁(yè)文本的內(nèi)容和網(wǎng)絡(luò)鏈接結(jié)構(gòu)來判斷網(wǎng)頁(yè)與搜索串的相似程度。但隨著越來越多的地方性資源和服務(wù)出現(xiàn)在因特網(wǎng)上,傳統(tǒng)搜索引擎無法合理地處理包含位置信息的搜索串和返回令人滿意的結(jié)果,其原因在于以下三點(diǎn):(1)將地理位置當(dāng)作普通關(guān)鍵字進(jìn)行處理;(2)考慮的是網(wǎng)頁(yè)在全球范圍的受歡迎程度而不是在地方的流行度;(3)沒有考慮網(wǎng)絡(luò)資源的地理范圍。因此,建立專門處理包含地理位置信息的搜索引擎是必需的。
搜索引擎優(yōu)化(Seo)是網(wǎng)站采用對(duì)搜索引擎友好的技術(shù)手段,達(dá)到網(wǎng)站在搜索引擎中排名考前及收錄數(shù)量增加。搜索引擎優(yōu)化工作貫穿網(wǎng)站策劃、建設(shè)、維護(hù)全過程的每個(gè)細(xì)節(jié)。
優(yōu)化好的網(wǎng)站,從搜索引擎來的流量將會(huì)有很大的提高。
如今搜索引擎的技術(shù)越來越成熟,性能越來越好,可供選擇的數(shù)量也越來越大,這更加促進(jìn)了元搜索引擎的發(fā)展。
關(guān)鍵字:搜索引擎,關(guān)鍵字,排序,網(wǎng)絡(luò)搜索,基于位置的搜索引擎
一、緒論
從1990年開始,搜索引擎逐漸發(fā)展成人們?cè)诨ヂ?lián)網(wǎng)上搜索資源的主要方式,大多數(shù)搜索引擎通過基于關(guān)鍵字(Keyword-based)的搜索方式來獲取相關(guān)網(wǎng)頁(yè)。據(jù)估計(jì)每天大約有上億條搜索串被提交給搜索引擎進(jìn)行處理。以Google為例,Sullivan在2010年的調(diào)查顯示Google每天大約需要處理超過9100萬次搜索。
對(duì)用戶來說搜索引擎最大的兩個(gè)特點(diǎn)就是高召回率和低精確性。雖然搜索引擎能夠覆蓋相當(dāng)大一部分網(wǎng)絡(luò)資源,但缺乏有效的手段來對(duì)結(jié)果進(jìn)行排序并呈現(xiàn)在用戶面前。搜索串通常并不會(huì)很長(zhǎng),根據(jù)Spink Jansen 在2004年所做的調(diào)查平均長(zhǎng)度只有2.4個(gè)單詞,但搜索引擎卻返回了過多的結(jié)果。工業(yè)界和學(xué)術(shù)界都提出了許多不同的索引和排序模型,試圖只找出最相關(guān)的文檔并以恰當(dāng)?shù)姆绞脚判?,但結(jié)果任然不盡如人意。根據(jù)Sullivan在2000年的報(bào)告,44%的用戶覺得搜索結(jié)果并不理想。顯然我們需要改進(jìn)現(xiàn)有的技術(shù)來更有效地索引和表現(xiàn)網(wǎng)絡(luò)資源。