介垂直搜索引擎(Vertical Search Engines),是與綜合(或通用)搜索引擎相對(duì)的一個(gè)概念,就是有針對(duì)性地為某一特定領(lǐng)域、某一特定人群或某一特定需求提供有專門的信息檢索服務(wù),以滿足用戶個(gè)性化的信息需求。垂直搜索引擎也常常被稱為專業(yè)搜索引擎(Specialty Search Engines)、專題搜索引擎(Topical Search Engines),是通過對(duì)專業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行專業(yè)和深入的分析挖掘、過濾篩選,信息定位為更精準(zhǔn)的專業(yè)搜索,實(shí)際上是搜索引擎的細(xì)分和延伸。 [1] 垂直搜索引擎的價(jià)值在于其占有的信息資源的數(shù)量,能否提供全面權(quán)威的行業(yè)信息,能否最大限度擁有行業(yè)資源是垂直搜索引擎發(fā)展的關(guān)鍵。從某種意義上講,行業(yè)門戶網(wǎng)站是垂直搜索引擎嫡親的父母,同時(shí)也是往往不能分割的有機(jī)整體。
數(shù)據(jù)特點(diǎn)(1)數(shù)據(jù)來源垂直搜索引擎的數(shù)據(jù)來源有兩個(gè)方面:①來源于所處行業(yè)的相關(guān)站點(diǎn)。②來源于自身平臺(tái):來源于自身平臺(tái)的搜索常被認(rèn)為是“站內(nèi)搜索”。但是,當(dāng)某一平臺(tái)上的信息達(dá)到足夠量大的時(shí)候,其實(shí)就是一種垂直搜索。況且,垂直搜索本身就是從這些行業(yè)站點(diǎn)提取出數(shù)據(jù)的。(2)數(shù)據(jù)特性垂直搜索引擎的數(shù)據(jù)傾向于結(jié)構(gòu)化和格式化。例如,在某個(gè)購物類的垂直搜索引擎上輸入“MP3”就會(huì)出現(xiàn)該產(chǎn)品的相關(guān)屬性,如內(nèi)存、尺寸、大小、電池型號(hào)、價(jià)格、生產(chǎn)廠家等相關(guān)技術(shù)屬性,有的還提供比價(jià)服務(wù)。在某餐飲搜索引擎的高級(jí)搜索針對(duì)一家餐館的搜索屬性設(shè)置多達(dá)300個(gè)選項(xiàng),把想到和沒想到都列出來了,這就把搜索服務(wù)專業(yè)化、細(xì)致化、個(gè)性化了 [1] 。
工作模式就垂直搜索引擎的工作模式來說,很多垂直搜索引掌是依靠人工或者半人工的方式來提取結(jié)構(gòu)化信息的,但近年智能化的非結(jié)構(gòu)化信息提取技術(shù)取得了重大進(jìn)展,在一些領(lǐng)域也得到了有效應(yīng)用。具體而言,垂直搜索引擎的Spider更加專業(yè)化和可定制化,其能夠定向采集與垂直搜索范圍相關(guān)的網(wǎng)頁,對(duì)內(nèi)容相關(guān)的以及適于進(jìn)一步處理的網(wǎng)頁進(jìn)行優(yōu)先采集。其信息采集可以通過人工設(shè)定網(wǎng)址和網(wǎng)頁分析等方式共同進(jìn)行,在定向分字段抽取出所需要的數(shù)據(jù)并處理后再以某種形式返回給用戶。比如,購物搜索引擎的整體工作流程大致如下:在Spider抓取網(wǎng)頁后,對(duì)網(wǎng)頁中的商品信息進(jìn)行抽取,抽取出商品名稱、價(jià)格、簡介等信息,然后對(duì)信息進(jìn)行比較、去重、分類,最后提供給用戶搜索,還可以通過分析挖掘?yàn)橛脩籼峁┦袌鲂星閳?bào)告。 [1]
特點(diǎn)①實(shí)時(shí)性:垂直搜索引擎需要獲取的信息來自于某一特定領(lǐng)域,這比起通用搜索引擎漫無邊際的信息抓取,有一個(gè)非常大的優(yōu)勢,那就是信息的實(shí)時(shí)性。由于互聯(lián)網(wǎng)上的信息量非常巨大,通用搜索引擎的數(shù)據(jù)更新周期短則十幾天,長則幾個(gè)月,而垂直搜索引掌的數(shù)據(jù)更新完全可以以秒為單位。②數(shù)據(jù)挖掘分析、BI、報(bào)表:行業(yè)的歷史發(fā)展、最新動(dòng)向、趨勢都是行業(yè)從業(yè)人員非常關(guān)注的話題。垂直搜索引擎集中了行業(yè)海量的信息和數(shù)據(jù),基于這些信息和數(shù)據(jù)的商務(wù)智能分析,將為行業(yè)創(chuàng)造非常有價(jià)值的信息增值服務(wù)。③個(gè)性化、社會(huì)化;查詢服務(wù)只是垂直搜索引擎的一部分,垂直搜索引掌在用戶的個(gè)性化方向的發(fā)展非常重要。垂直搜索引擎不能只提供一個(gè)窗口,它應(yīng)該是一個(gè)用戶高度參與交互的社會(huì)化平臺(tái)。這不光是用戶粘度、忠誠度的問題,更為重要的是,垂直搜索引擎需要能夠獲取并且分析用戶的偏好信息,從而提供更加完善而且準(zhǔn)確的數(shù)據(jù)服務(wù)。④智能化語義網(wǎng):語義網(wǎng)(semantic web)將有可能成為下一代互聯(lián)網(wǎng),此類網(wǎng)絡(luò)上的數(shù)據(jù)和信息將被計(jì)算機(jī)程序所理解。這將為垂直搜索引掌提供一個(gè)巨大的機(jī)會(huì),Spider程序如果能理解網(wǎng)絡(luò)上的數(shù)據(jù),將對(duì)信息的收集和整理更加準(zhǔn)確和專業(yè),搜索服務(wù)的查全率和查準(zhǔn)率將更高。⑤多元化查詢:目前的搜索引擎,都只局限于關(guān)鍵字搜索,其中主要的原因是,對(duì)用戶的查詢需求無法建模,無法模式化。而關(guān)鍵字搜索帶來的問題是,搜索結(jié)果過多,并且不準(zhǔn)確?;ヂ?lián)網(wǎng)信息量越大,這種情況越嚴(yán)重,可以說是災(zāi)難 [2] 。
與通用搜索的區(qū)別(1)信息處理的區(qū)別垂直搜索引擎和普通的網(wǎng)頁搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫,進(jìn)行進(jìn)一步的加工處理,如去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。舉個(gè)例子來說明會(huì)更容易理解,比如購物搜索引摹,整體流程大致如下:抓取網(wǎng)頁后,對(duì)網(wǎng)頁商品信息進(jìn)行抽取,抽取出商品名稱、價(jià)格、簡介……甚至可以進(jìn)一步將筆記本式計(jì)算機(jī)簡介細(xì)分成品牌、型號(hào)、CPU、內(nèi)存、硬盤、顯示屏……然后對(duì)信息進(jìn)行清洗、去重、分類、分析比較、數(shù)據(jù)挖掘,最后通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報(bào)告。在整個(gè)過程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。(2)信息采集的區(qū)別垂直搜索引擎技術(shù)同信息采集技術(shù)不同的是,信息采集主要是將采集的信息導(dǎo)入本地?cái)?shù)據(jù)庫,而垂直搜索引擎主要是以網(wǎng)頁的形式展現(xiàn)給用戶。通用搜索引擎主要是利用Spider程序到網(wǎng)絡(luò)上搜索,一般是某個(gè)特定的周期派出一次將網(wǎng)頁更新,垂直搜索引擎同樣應(yīng)有Spider程序,但該程序只在一些特定的網(wǎng)絡(luò)上爬行,并不會(huì)對(duì)每一個(gè)鏈接都感興趣。相對(duì)來說,垂直搜索引擎的收錄范圍大大縮小了,但并不意味著內(nèi)容的縮小,通用搜索引擎對(duì)一些動(dòng)態(tài)腳本是不敏感的。另外,由于目前網(wǎng)頁中的鏈接形式非常多,不但有動(dòng)態(tài)腳本也有Flash做鏈接,這些鏈接方式通過傳統(tǒng)的Spider程序是很難解析出來的,在垂直搜索引掌中也應(yīng)該解決 [2] 。
關(guān)鍵技術(shù)由于垂直搜索引擎服務(wù)具有其自身的特性,因此其技術(shù)要求特點(diǎn)上與通用搜索引擎有很多不同之處,主要有四大關(guān)鍵技術(shù)。(1)聚焦、實(shí)時(shí)和可管理的網(wǎng)頁采集技術(shù)一般互聯(lián)網(wǎng)搜索面向全網(wǎng)信息,采集的范圍廣、數(shù)量大,但往往由于更新周期的要求,采集的深度或說層級(jí)比較淺,采集動(dòng)態(tài)網(wǎng)頁優(yōu)先級(jí)比較低,因而被稱為水平搜索。而垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標(biāo),所以只對(duì)局部來源的網(wǎng)頁進(jìn)行采集,采集的網(wǎng)頁數(shù)量適中。但其要求采集的網(wǎng)頁全面,必須達(dá)到更深的層級(jí),采集動(dòng)態(tài)網(wǎng)頁的優(yōu)先級(jí)也相對(duì)較高。在實(shí)際應(yīng)用中,垂直搜索的網(wǎng)頁采集技術(shù)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動(dòng)態(tài)網(wǎng)頁采集,即采集技術(shù)要能達(dá)到更加聚焦、縱深和可管控的需求,并且網(wǎng)頁信息更新周期也更短,獲取信息更及時(shí)。(2)從非結(jié)構(gòu)化內(nèi)容到結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁解析技術(shù)水平搜索引擎僅能對(duì)網(wǎng)頁的標(biāo)題和正文進(jìn)行解析和提取,但不提供其時(shí)間、來源、作者及其他元數(shù)據(jù)的解析和提取。由于垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時(shí)間、來源、作者及其他元數(shù)據(jù)解析,包括對(duì)網(wǎng)頁中特定內(nèi)容的提取。例如,在論壇搜索、生活服務(wù)、訂票服務(wù)、求職服務(wù)、風(fēng)險(xiǎn)信用、競爭情報(bào)、行業(yè)供需、產(chǎn)品比較等特定垂直搜索服務(wù)中,要求對(duì)于作者、主題、地區(qū)、機(jī)構(gòu)名稱、產(chǎn)品名稱以及特定行業(yè)用語進(jìn)行提取,才能進(jìn)一步提供更有價(jià)值的搜索服務(wù)。(3)精、準(zhǔn)、全的全文索引和聯(lián)合檢索技術(shù)水平搜索引擎并不能提供精確和完整的檢索結(jié)果,只是給出預(yù)估的數(shù)量和排在前面部分的結(jié)果信息(TOPN),但響應(yīng)速度是水平搜索引擎所追求的最重要因素。在文本索引方面,它也僅對(duì)部分網(wǎng)頁中特定位置的文本而不是精確的網(wǎng)頁正文全文進(jìn)行索引,因而其最終檢索結(jié)果是不完全的。垂直搜索由于在信息的專業(yè)性和使用價(jià)值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式,例如按內(nèi)容相關(guān)度排序(與水平檢索的page rank不同)或按時(shí)間、來源排序。另外,一些垂直搜索引擎還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,如結(jié)合作者、內(nèi)容、分類進(jìn)行組合檢索等。(4)高度智能化的文本挖掘技術(shù)垂直搜索與水平搜索的最大區(qū)別是,它對(duì)網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取加工,也就是將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁搜索是以網(wǎng)頁為最小單位,基于視覺的網(wǎng)頁塊分析是以網(wǎng)頁塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位?;诮Y(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶提供更加到位、更有價(jià)值的服務(wù)。整個(gè)結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁解析到網(wǎng)頁加工處理的過程。同時(shí),面對(duì)上述要求,垂直搜索還能夠按需提供智能化處理功能,如自動(dòng)分類、自動(dòng)聚類、自動(dòng)標(biāo)引、自動(dòng)排重,文本挖據(jù)等。這部分是垂直搜索乃至信息處理的前沿技術(shù),雖然尚不夠成熟,但有很大的發(fā)展?jié)摿涂臻g,并且目前在一些海量信息處理的場合已經(jīng)能夠起到很好的應(yīng)用效果 [2] 。
應(yīng)用價(jià)值垂直搜索從海量的商訊中直接選出用戶最需要的供求信息、買(賣)家背景資料、交易方式、服務(wù)跟蹤等,它既是大量相關(guān)產(chǎn)品、企業(yè)信息的展示平臺(tái),又是行業(yè)網(wǎng)站、電子商務(wù)的聚合平臺(tái),中小企業(yè)通過它可獲得傳統(tǒng)門戶網(wǎng)站、通用搜索無法提供的閉合式網(wǎng)絡(luò)體驗(yàn),這種附加值就是細(xì)分市場巨大的商業(yè)價(jià)值所在。總結(jié)起來,垂直搜索引擎在企業(yè)中的應(yīng)用價(jià)值包括:1.整合企業(yè)內(nèi)外資源,打造企業(yè)競爭情報(bào)系統(tǒng)的核心引擎企業(yè)的競爭情報(bào)信息既包括外部的互聯(lián)網(wǎng)信息、商業(yè)數(shù)據(jù)庫信息等,也包括內(nèi)部的辦公文檔資料、內(nèi)部交流信息等。垂直搜索引擎是整合這些內(nèi)外信息資源的有效手段之一,在資源整合的基礎(chǔ)上,形成以情報(bào)規(guī)劃、情報(bào)采集、情報(bào)加工、情報(bào)服務(wù)、評(píng)估反饋為全生命周期的、完善的、統(tǒng)一的企業(yè)競爭情報(bào)平臺(tái),為企業(yè)的風(fēng)險(xiǎn)預(yù)警和決策支持提供信息服務(wù)。2.高效采集和組織管理企業(yè)內(nèi)外網(wǎng)門戶信息,使信息共享更加便捷、有序隨著企業(yè)信息化的發(fā)展和深入,為了提高企業(yè)內(nèi)部、企業(yè)和客戶、企業(yè)和供應(yīng)商之間的信息傳遞和共享速度,加速企業(yè)的業(yè)務(wù)進(jìn)程,大部分企業(yè)(特別是分支機(jī)構(gòu)較多的大型集團(tuán)性企業(yè))都建立了內(nèi)外網(wǎng)服務(wù)門戶,以便通過垂直搜索引擎高效地采集內(nèi)外網(wǎng)門戶信息,為企業(yè)職工、客戶、供應(yīng)商提供統(tǒng)一的信息檢索入口,并通過權(quán)限控制實(shí)現(xiàn)安全的檢索服務(wù),使得信息的傳遞和共享更加便捷和有序。 [3]
應(yīng)用領(lǐng)域垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索、工作搜索、交友搜索等,幾乎各行各業(yè)、各類信息都可以進(jìn)一步細(xì)化成各類垂直搜索引擎。(一)音樂搜索除必應(yīng)外,各搜索引擎都提供了音樂搜索服務(wù),支持各種格式的音樂文件的搜索,并提供了各種榜單、音樂專題和挑歌功能。(二)視頻搜索除了谷歌,其他的搜索引擎都有其獨(dú)立的視頻搜索頁面,并提供了視頻分類搜索。(三)新聞搜索各搜索引擎都提供了分類搜索,例如,百度提供了國際、國內(nèi)、體育、娛樂等16個(gè)分類的新聞搜索。(四)圖書搜索目前僅有百度與谷歌提供了圖書搜索的服務(wù),因?yàn)樯婕暗桨鏅?quán)的關(guān)系,只有那些已不再受版權(quán)保護(hù)或出版商已授權(quán)搜索引擎的圖書,才會(huì)提供給用戶預(yù)覽。只有在某些情況下,用戶才可以查看全文內(nèi)容,如公眾領(lǐng)域的圖書。對(duì)于那些無法預(yù)覽或下載的圖書,搜索引擎則提供了借閱或購買該書的渠道。(五)地圖搜索地圖搜索一般用于公交、行車路線的搜索,但大多數(shù)搜索引擎都集合了其他生活信息的搜索,如餐飲、住宿、出游、企業(yè)等信息的搜索。(六)財(cái)經(jīng)搜索財(cái)經(jīng)搜索主要提供股市報(bào)價(jià)、資訊、貨幣匯率等信息的搜索,目前僅有谷歌和百度提供了財(cái)經(jīng)信息的垂直搜索。在谷歌財(cái)經(jīng)的首頁上,可以看到各個(gè)主要板塊的當(dāng)前行情,將鼠標(biāo)移到條線圖上時(shí)可以看到該板塊的一些詳細(xì)的漲跌信息。谷歌還提供了“股票篩選器”的服務(wù),為用戶選擇投資對(duì)象提供了便利。(七)圖片搜索各搜索引擎都提供了圖片搜索服務(wù),并提供了內(nèi)容類型、圖片尺寸、文件類型、圖片顏色、圖片版式甚至圖片風(fēng)格等條件的限定搜索。必應(yīng)、谷歌提供的是一頁式瀏覽結(jié)果,其他幾款搜索引擎提供的則是傳統(tǒng)的分頁式瀏覽。 [4]
發(fā)展趨勢隨著新技術(shù)的發(fā)展和門檻的降低,垂直搜素引擎將向著以下適應(yīng)不同用戶需求的方向不斷發(fā)展。(1)目錄精細(xì)化方向發(fā)展。由于垂直搜索引擎相對(duì)于綜合搜素引擎的最大優(yōu)勢,是對(duì)信息進(jìn)行深度的、精細(xì)化的處理。與早期的網(wǎng)址分類搜索引擎相似,但垂直搜素引擎只選定了某一特定行業(yè)或某一主題進(jìn)行目錄的細(xì)化分類,結(jié)合機(jī)器抓取行業(yè)相關(guān)站點(diǎn)的信息提供專業(yè)化的搜素服務(wù)。這種專業(yè)化的分類目錄,很容易讓用戶迅速知道自己要找的是什么,并且按目錄點(diǎn)擊就能找到。未來的垂直搜素引擎將會(huì)更加精細(xì)的劃分不同的行業(yè),用戶想要什么就可以得到什么。(2)深度挖掘分析元數(shù)據(jù)。其特點(diǎn)是:元數(shù)據(jù)模型再組織、再整合、深度數(shù)據(jù)挖掘、互動(dòng)性。通過對(duì)元數(shù)據(jù)信息進(jìn)入深度加工,該類垂直搜素引擎為用戶提供綜合搜素引擎無法做到的專業(yè)性、功能性、關(guān)聯(lián)性,有的加入了用戶信息管理以及信息發(fā)布互動(dòng)功能,能很好地滿足了用戶對(duì)專業(yè)性、準(zhǔn)確性、功能性、個(gè)性化的需求。(3)向交易平臺(tái)發(fā)展。垂直搜素引擎由于自身對(duì)行業(yè)的專注,使得它可以提供行業(yè)信息深度和廣度的整合提供更加細(xì)致周到的服務(wù)。對(duì)消費(fèi)領(lǐng)域可以推出針對(duì)某一行業(yè)的搜索交易平臺(tái)。搜索交易平臺(tái)提供行業(yè)內(nèi)商家和顧客直接溝通、咨詢不再需要轉(zhuǎn)到第三方平臺(tái)再進(jìn)行交易。(4)本地搜索。本地搜索的關(guān)鍵需求在于人們大多是在本地購物、就餐、娛樂、健身、修車、工作等
咨詢熱線:0871-68365691、68365692、68365693、68365694、 68365695、68365696、68365697、68365698、68365699、68365700
傳真:0871-65127537
地址:云南.昆明市.龍泉路實(shí)力壹方城6棟1702號(hào)
業(yè)務(wù):昆明網(wǎng)站建設(shè);昆明網(wǎng)站制作;云南網(wǎng)站建設(shè);昆明網(wǎng)站制作公司;云南網(wǎng)站制作公司;昆明網(wǎng)絡(luò)公司;云南網(wǎng)絡(luò)公司
事務(wù)郵件:294805437@qq.com