網(wǎng)絡(luò)爬蟲范文

時間:2023-04-05 04:14:48

導(dǎo)語:如何才能寫好一篇網(wǎng)絡(luò)爬蟲,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

網(wǎng)絡(luò)爬蟲

篇1

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;反爬蟲機制;搜索引擎

中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)07-0061-03

信息和知識爆炸增長的時代,搜索引擎成為人們獲取信息的重要工具。搜索引擎釋放出來的網(wǎng)絡(luò)爬蟲會大量占用互聯(lián)網(wǎng)帶寬,很可能在短時間內(nèi)導(dǎo)致網(wǎng)站訪問速度緩慢,甚至無法訪問。應(yīng)對此種情況,許多網(wǎng)站采取了一些措施來攔截網(wǎng)絡(luò)爬蟲的爬取。本文在分析網(wǎng)絡(luò)爬蟲原理的基礎(chǔ)上,針對“反爬”網(wǎng)站提出了一些有效的爬取策略。

1網(wǎng)絡(luò)爬蟲概述

網(wǎng)絡(luò)爬蟲是抓取網(wǎng)頁信息的一種程序,它可用來檢查一系列站點的有效性,當(dāng)按照需求抓取并保存數(shù)據(jù)時,是搜索引擎的重要組成部分。它還可以定向采集某些網(wǎng)站下的特定信息,比如招聘、二手買賣等信息。

網(wǎng)絡(luò)上的網(wǎng)頁許多都由超鏈接連接,故形成了一張網(wǎng),網(wǎng)絡(luò)爬蟲因此也叫做網(wǎng)絡(luò)蜘蛛,順著網(wǎng)爬,每到一個網(wǎng)頁就抓取信息并抽取新的超鏈接,用于進一步爬行的線索。網(wǎng)絡(luò)爬蟲爬行的起點叫做種子,可以自己設(shè)定也可以從某些系列網(wǎng)站獲取。

1.1網(wǎng)絡(luò)爬蟲的組成

網(wǎng)絡(luò)爬蟲主要由控制器、解析器和資源庫三部分組成??刂破魇蔷W(wǎng)絡(luò)爬蟲的控制中心,它負(fù)責(zé)分配線程并調(diào)用爬蟲為其分配爬取任務(wù);解析器是網(wǎng)絡(luò)爬蟲的核心,它的主要工作是下載網(wǎng)頁并對網(wǎng)頁中的信息進行處理,例如刪除一些JS腳本、HTML標(biāo)簽和空格字符等,抽取特殊HTML標(biāo)簽的功能,分析數(shù)據(jù)功能;資源庫是用于保存下載的網(wǎng)頁資源,并提供生成索引的目標(biāo)源。一般采用中大型的數(shù)據(jù)庫存儲,如Oracle、Sql Server等。

1.2網(wǎng)絡(luò)爬蟲的工作原理

網(wǎng)絡(luò)爬蟲的基本工作流程如下:

1)選取初始種子URL集合;

2)將URL集合放入待抓取URL隊列;

3)從待抓取URL隊列中取出待抓取URL,解析DNS,得到主機IP,將URL對應(yīng)網(wǎng)頁下載并存儲至網(wǎng)頁資源庫。結(jié)束后將這些URL放入已抓取URL隊列。

4)從已抓取URL隊列中的URL分析出新的滿足需求的URL,放入待抓取URL隊列。

5)循環(huán)第3步,直至滿足停止條件。

傳統(tǒng)網(wǎng)絡(luò)爬蟲框架如圖1所示。

1.3網(wǎng)絡(luò)爬蟲的搜索策略

網(wǎng)絡(luò)爬蟲在運行過程中,待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL如何排序也是一個值得研究的問題,因為這涉及先抓取那個頁面,后抓取哪個頁面。而排列URL順序的方法,叫做抓取策略。常見的網(wǎng)絡(luò)爬蟲策略有:

1)廣度優(yōu)先搜索策略。在抓取過程中,由根節(jié)點開始,完成當(dāng)前層次的搜索后才跳到下一層次的搜索。該策略實現(xiàn)較為簡單,其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。

2)深度優(yōu)先搜索策略。這種策略的主要思想是網(wǎng)絡(luò)爬蟲從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。

3)最佳優(yōu)先搜索策略。該策略通過計算 URL 描述文本與目標(biāo)網(wǎng)頁的相似度,或者與主題的相關(guān)性,根據(jù)所設(shè)定的閾值選出有效 URL 進行抓取。

4)反向鏈接數(shù)策略,反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此,很多時候搜索引擎的抓取系統(tǒng)會使用這個指標(biāo)來評價網(wǎng)頁的重要程度,從而決定不同網(wǎng)頁的抓取先后順序。

2如何應(yīng)對站點反爬蟲機制

網(wǎng)絡(luò)爬蟲會對目標(biāo)站點發(fā)送大量請求,而這樣的爬蟲機制會消耗不少網(wǎng)站資源,這對于中小型網(wǎng)站的負(fù)載是 巨大的,甚至因此而崩潰,故不少網(wǎng)站都采取了反爬蟲的機制。例如:通過識別爬蟲的User-Agent信息來拒絕爬蟲,通過Filter過濾網(wǎng)絡(luò)爬蟲,通過網(wǎng)站流量統(tǒng)計系統(tǒng)和日志分析來識別爬蟲,利用網(wǎng)站的實時反爬蟲防火墻實現(xiàn)策略。為了不被站點判斷為爬蟲而被拒絕訪問請求,此處提供兩種方法來維持爬蟲的正常運轉(zhuǎn)。

2.1降低訪問請求頻率

降低訪問請求頻率,在一定程度上是,模仿真人瀏覽頁面的動作,故而不會輕易被網(wǎng)站所封殺,拒絕訪問。實現(xiàn)的方法為在訪問URL的程序中,將訪問請求的線程休眠一段時間。

具體代碼如下:

try { Thread.currentThread().sleep(4000);

} catch (InterruptedException e) {

e.printStackTrace();

}

Sleep的休眠時間按照需求而定,以毫秒(ms)為單位。這種策略的優(yōu)點是減少了目標(biāo)站點單位時間內(nèi)的負(fù)載,而缺點則為爬蟲爬取效率的降低。

2.2設(shè)置服務(wù)器

設(shè)置服務(wù)器,較之前一種方法來說則以爬蟲的效率為首要要求,實質(zhì)就是某些網(wǎng)站的反爬蟲機制會封殺爬蟲請求頻率過高的主機的IP,為了解決這一問題,使用服務(wù)器,更換IP以及端口,解除站點對訪問頻率高的主機訪問的限制。

有兩種調(diào)用的方法,具體代碼如下:

方法一:

Jsoup.connect("http:///cityjson").proxy(Proxy.Type.HTTP, "61.158.237.35", 3128).get();

方法二:

System.setProperty("proxySet", "true"); System.setProperty("http.proxyHost", "61.158.237.35"); System.setProperty("http.proxyPort", "3128");

Document a = Jsoup.connect("http:///cityjson").get();

System.out.println(a);

其中的IP與端口為 61.158.237.35:3128。

前后的效果如圖2,3所示。

優(yōu)點:保證爬蟲執(zhí)行不被站點封殺。只要有足夠IP可滿足爬取條件。

缺點:單位時間內(nèi)消耗資源過多,給站點帶來較大的負(fù)載。延遲加大,失敗率提高。

2.3偽裝用戶

用戶User-agent是HTTP協(xié)議中的一個字段,作用是描述發(fā)出HTTP請求終端的一些信息。通俗來說,就是判斷訪問網(wǎng)站對象的類別,每個瀏覽器和正規(guī)的爬蟲都有固定的user-agent,因此只要將這個字段改成知名的user-agent就可以成功偽裝了。對于偽裝瀏覽器user-agent或知名爬蟲user-agent,更推薦偽裝瀏覽器,因為瀏覽器使用者可以是任何人,沒有固定的IP,而知名爬蟲user-agent一般都有固定IP。下面給出若干個瀏覽器的user-agent,每次發(fā)送請求時可隨機選取一個。

Mozilla/4.0( compatible ;MSIE 8.0;Windows NT 6.0)

Mozilla/4.0( compatible ;MSIE 7.0;Windows NT 5.2)

Mozilla/4.0( compatible ;MSIE 6.0;Windows NT 5.1)

設(shè)置代碼如下:

HttpGet getMethod = new HttpGet(“URl”);

getMethod.setHeader(“User-Agent”,”user agent內(nèi)容”);

2.4 自動登錄

有些網(wǎng)站一檢測到某IP的訪問量異常,就會馬上提出要登錄的要求。針對這種“反爬”策略,在登錄前需要做一些準(zhǔn)備,查清楚POST登錄請求時要附帶的參數(shù),建議先用badboy錄制登錄過程,然后將這一過程導(dǎo)出為jmeter文件,最后用jmeter查看登錄所需的參數(shù)。

3結(jié)束語

總之,為了防止爬蟲被封,原則就是偽裝成正常的用戶,只要按照這個原則總有方法可循。不過若是能熟知一些反爬蟲的原理,然后有針對地進行拆招應(yīng)該還是十分有效的。

傳統(tǒng)網(wǎng)絡(luò)爬蟲應(yīng)用于抓取靜態(tài)Web網(wǎng)頁的信息,而AJAX/Web2.0的流行使得如何抓取動態(tài)頁面信息成為目前網(wǎng)絡(luò)爬蟲的瓶頸。另外,網(wǎng)絡(luò)爬蟲的效率與網(wǎng)站穩(wěn)定安全還未能完全達到兩者兼得的狀態(tài)。對于搜索引擎,它抓取的消耗較大,因此爬蟲的效率、特性和抓取的質(zhì)量就顯得更為重要。在未來的大數(shù)據(jù)時代,網(wǎng)絡(luò)爬蟲技術(shù)地位更為重要,和人工智能技術(shù)相結(jié)合將是熱門的課題。

參考文獻:

[1] 郭小丹.幾種開源網(wǎng)絡(luò)爬蟲功能比較[J].黑龍江科技信息,2015(25).

[2] 林雄強.網(wǎng)絡(luò)爬蟲[J].中國科技博覽,2014(24).

[3] 趙全軍,成功,李小正,等.一種改進的網(wǎng)絡(luò)爬蟲搜索策略[J].中國科技信息,2014(14).

[4] 劉慶杰,孫旭光,王小英.通過Filter抵御網(wǎng)頁爬蟲[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2010(1).

[5] 吳曉暉,紀(jì)星.Web爬蟲檢測技術(shù)綜述[J].湖北汽車工業(yè)學(xué)院學(xué)報,2012(1).

篇2

>> 基于垂直搜索引擎的主題爬蟲技術(shù) Heritrix在垂直搜索引擎中的應(yīng)用 用開源軟件建垂直搜索引擎 垂直搜索引擎爬蟲系統(tǒng)DIPRE算法及改進 應(yīng)用已有的開源搜索引擎 垂直搜索引擎應(yīng)用研究 淺談垂直搜索引擎技術(shù)的應(yīng)用 淺析垂直搜索引擎的應(yīng)用 網(wǎng)絡(luò)化制造資源垂直搜索引擎的研究與應(yīng)用 搜索引擎也開源 主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究 垂直搜索引擎異軍突起 垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索 用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用 垂直搜索引擎在金融信息技術(shù)分析中的應(yīng)用 基于C#的網(wǎng)絡(luò)爬蟲搜索引擎的設(shè)計 主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究 基于神經(jīng)網(wǎng)絡(luò)的搜索引擎應(yīng)用 垂直搜索:搜索引擎的激情所在 基于垂直搜索技術(shù)的搜索引擎 常見問題解答 當(dāng)前所在位置:(|l)$,這樣就把服務(wù)器域名下的網(wǎng)頁所有信息全部抓取下來。但是,考慮垂直搜索引擎的使用范圍和聚焦爬蟲對網(wǎng)頁主題的過濾功能,需要設(shè)計與實際主題搜索應(yīng)用相匹配的專用解析器,專用解析器extract(CrawlURL)要實現(xiàn)以下功能:

(1)對所有不含有要抓取的結(jié)構(gòu)化信息頁面的 URL、又不含有可以集中提取前者 URL 的種子型 URL,都不作處理。

(2)從可以集中提取含結(jié)構(gòu)化信息頁面 URL 的種子型 URL(如地方新聞目錄 URL),提取全部的含結(jié)構(gòu)化信息頁面的 URL(如地方信息列表 URL)。

(3)從含結(jié)構(gòu)化信息頁面的 URL 提取所需的結(jié)構(gòu)化信息,并加以記錄。

3.2.2 擴展 Frontierscheduler模塊

FrontierScheduler 是一個 PostProcessor,其作用是將 Extractor所分析得出的鏈接加入到 Frontier 中,以待繼續(xù)處理,聚焦爬蟲實現(xiàn)關(guān)鍵詞對主題的判斷算法就在該模塊中構(gòu)建并執(zhí)行。主題相關(guān)度判斷的關(guān)鍵代碼如下:

public void GetCount(String path,CandidateURI caUri)

{//判斷待抓取網(wǎng)頁與主題是否相關(guān)

try {

String s=sb.getStrings();//s 取網(wǎng)頁正文字符

Len=length(s);//求網(wǎng)頁字符數(shù)

float d=0;//初始化 d,用于計算所有導(dǎo)向詞的權(quán)重和

for(int i=0;i

{count=0,int j=1;//count為導(dǎo)向詞出現(xiàn)次數(shù),j 為導(dǎo)向詞在字符串的位置

t= length(a[i]);//求第 i 個導(dǎo)向詞的字符個數(shù)

While(j

int index=s.indexOf(a[i],j,len);//查找字串在 j+1 到 end 之間第一個字符首次出現(xiàn)的位置

if(index!=-1)//找到后,繼續(xù)在余下的字符串中找

{count++;

j=index+t+1;}

Else

Break;

}

D(i)=count*b(i);//D(i)是第 i 個導(dǎo)向詞的權(quán)重,b(i)表示 i 個導(dǎo)向詞的權(quán)值。

d=d+ D(i);//將所有導(dǎo)向詞的權(quán)重求和

}

k=1/len * 1/100 * d;//k 是網(wǎng)頁主題相關(guān)度,len是文章字符數(shù),100個導(dǎo)向詞

if(k>0.6) ; //相關(guān)度判斷

{System.out.println("count:"+count);//表示輸出

getController().getFrontier().schedule(caUri); //當(dāng)前 url 加入 heritix 采集隊列 }

}

3.3 Heritrix聚焦爬蟲接口的設(shè)計

Heritrix 網(wǎng)絡(luò)爬蟲是一個通用的網(wǎng)頁采集工具,需要對Heritrix 抓取和分析網(wǎng)頁的行為進行一定的控制,修改Extractor和 Frontierscheduler模塊后,需要對其各個功能接口進行操作調(diào)試,由此保證聚焦爬蟲功能的全面實現(xiàn)。下面即對重要功能接口進行必要介紹。

(1)應(yīng)用接口

在設(shè)計聚焦爬蟲時,應(yīng)定制一個應(yīng)用接口模塊以供用戶使用,具體將負(fù)責(zé)與Heritrix 軟件關(guān)聯(lián),以提供啟、停爬蟲、獲取網(wǎng)址、采集關(guān)鍵詞等功能實現(xiàn)。

(2)數(shù)據(jù)庫查詢和修改接口

在設(shè)計聚焦爬蟲時,應(yīng)設(shè)計相應(yīng)的數(shù)據(jù)庫接口,負(fù)責(zé)下載并發(fā)現(xiàn)與主題相關(guān)的網(wǎng)頁信息、再保存到數(shù)據(jù)庫的表中。存儲的字段包括:網(wǎng)頁URL,本地存儲相對路徑,下載時間,HTTP頭中抽取的網(wǎng)頁編碼,關(guān)鍵詞id等。

(3)去重接口

因為Heritrix對相同的URL不進行替換,爬蟲工作時會下載大量重復(fù)的網(wǎng)頁,為了節(jié)省空間、并獲取準(zhǔn)確的采集結(jié)果,就必須按照設(shè)定規(guī)則對重復(fù)下載的網(wǎng)頁進行刪除。

4 結(jié)束語

通過以上對開源Heritrix軟件的改進,聚焦爬蟲已能根據(jù)預(yù)設(shè)的關(guān)鍵詞進行網(wǎng)站抓取,并按照算法判斷,當(dāng)網(wǎng)頁的主題相關(guān)度閾值大于0.6時,即聚焦爬蟲下載網(wǎng)頁,至此爬蟲實現(xiàn)了指定網(wǎng)站的主題搜索。綜上可見,可以改進開源網(wǎng)絡(luò)爬蟲并使其在垂直搜索引擎中獲得成功立項使用。

參考文獻:

[1]劉運強. 垂直搜索引擎的研究與設(shè)計[J]. 計算機應(yīng)用與軟件,2010, 127(7): 130-132.

[2]劉偉光. 一種基于改進向量空間模型的藏文主題網(wǎng)頁采集方法[J]. 圖書館學(xué)研究,2014, 16:55-62.

[3]陳歡. 面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 華中師范大學(xué), 2014.

[4] 焦賽美. 網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 瓊州學(xué)院學(xué)報, 2010, 18(5): 28-30.

篇3

【關(guān)鍵詞】競爭情報;網(wǎng)絡(luò)零售;主題爬蟲;在線商品;輔助決策

根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心的研究數(shù)據(jù),2010年網(wǎng)絡(luò)零售市場上用戶比例(存在重復(fù)選項)第一的是服裝鞋帽,為70.1%;第二的是電腦數(shù)碼產(chǎn)品,為31.6%;第三的是圖書音像制品,為31.4%。當(dāng)前,網(wǎng)絡(luò)零售商家收集競爭情報的途徑主要為手工使用各種搜索引擎(如百度),或購買網(wǎng)絡(luò)零售平臺提供的分析工具(如淘寶的“數(shù)據(jù)魔方”)。手工使用搜索引擎效率較低,分析工具對大部分零售商家來說價格較貴,且只能獲取單個平臺的銷售數(shù)據(jù)。主題爬蟲是一個能自動從網(wǎng)頁中提取指定相關(guān)內(nèi)容的程序,它從一個或若干初始URL開始,不斷獲取當(dāng)前頁面上的新URL,循環(huán)深入進行相關(guān)內(nèi)容抽取,直到達到停止條件。當(dāng)前有很多免費的爬蟲程序,例如Java開源的Heritrix。針對網(wǎng)絡(luò)零售業(yè),完全可以通過借助這些比較成熟的爬蟲程序,為商家量身定制競爭情報系統(tǒng)。

一、系統(tǒng)的基本構(gòu)成

系統(tǒng)分為兩大部分,第一部分為接受商家指定主題和范圍,然后在基本資料庫中抽取關(guān)鍵詞(含URL)推薦?;举Y料庫由系統(tǒng)在空閑時利用主題爬蟲檢索并智能生成,盡量涵蓋常用網(wǎng)絡(luò)零售領(lǐng)域和商品種類,可以增加檢索準(zhǔn)確度和提高效率。第二部分為商家確定關(guān)鍵詞后,由系統(tǒng)利用主題爬蟲深入全面地檢索競爭情報,并將結(jié)果匯總為按時間排序的詞條呈現(xiàn)。結(jié)果的呈現(xiàn)可以分為商家隨時查看,以及定時自動匯總兩種模式。商家還可以隨時在基本資料庫中進行關(guān)鍵詞調(diào)整或者手工加入新的關(guān)鍵詞,以改進情報搜集效果。系統(tǒng)整體結(jié)構(gòu)如圖1所示。

圖1 系統(tǒng)的功能結(jié)構(gòu)圖

二、系統(tǒng)的主要功能實現(xiàn)

1.主題爬蟲的整合。以現(xiàn)有的Heritrix作為抽取指定URL內(nèi)容的工具,抽取出來的內(nèi)容則需進行主題分析、過濾,相關(guān)度足夠高的內(nèi)容中包含的URL才能放入隊列,等待下一步抽取。(1)主題的表示。主題可以概括為關(guān)鍵詞(不含URL)的向量組合。設(shè)主題共有n個關(guān)鍵詞,則主題的關(guān)鍵詞集合表示為T={t1,t2,...,tn},ti為主題的第i個關(guān)鍵詞。設(shè)ti的權(quán)重為wi(ti的重要性),則主題向量α表示為:ω=(w1,w2,...,wn), wi=1。(2)相關(guān)性的概念。URL中內(nèi)容與主題的相關(guān)性,可以利用主題的向量表示來衡量。設(shè)關(guān)鍵詞ti在內(nèi)容中出現(xiàn)的次數(shù)為ci,則整個URL與主題的相關(guān)性γ可表示為:γ=wici,ci=0,1,2...??梢愿鶕?jù)已知的確定相關(guān)的若干URL計算出γ的平均值作為閾值M,γ值超過M的URL認(rèn)為相關(guān),小于的則過濾掉。主題相關(guān)性γ可用來確定主題爬蟲每層抽取URL的廣度。主題爬蟲每次利用Heritrix抽取URL內(nèi)容的深度固定為1,通過循環(huán)調(diào)用Heritrix來逐層深入。當(dāng)某層次所有URL中與主題相關(guān)的比例低于某個值(比如50%)時,結(jié)束抽取。主題爬蟲的抽取深度也可以由每層URL的主題相關(guān)性γ來綜合決定。

2.基本資料庫的創(chuàng)建。基本資料庫是為了提高情報搜集效率,也是為了提升系統(tǒng)智能化水平而特意創(chuàng)建的一個關(guān)鍵詞庫,也包含URL在內(nèi)。因為一個情報主題所含關(guān)鍵詞很難完整而準(zhǔn)確地被描述,系統(tǒng)會先利用主題爬蟲收集商家提交的主題關(guān)鍵詞在常用搜索引擎(如谷歌、百度)和零售平臺(如淘寶)中的檢索結(jié)果,統(tǒng)計其中的關(guān)鍵詞和URL,將其中相關(guān)性高的放入基本資料庫中,充實主題內(nèi)涵。

以“手機”情報主題為例:將其百度檢索結(jié)果URL“.2011(6)

[2]鐘原勝.淘寶的“魔方”[J].互聯(lián)網(wǎng)天地.2010(5):72~73

[3]王芳,陳海建.深入解析Web主題爬蟲的關(guān)鍵性原理[J].微型電腦應(yīng)用.2011(7):76~78

篇4

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;網(wǎng)絡(luò)并行處理;搜索策略;網(wǎng)頁結(jié)構(gòu)挖掘

中圖分類號:TP393.08文獻標(biāo)識碼:A文章編號:1007-9599 (2012) 03-0000-02

Web Access and Improvement Study on Detection System of the Web Chat Rooms

Sun Qun1,2,Qi Zhengdong3

(1. Hubei University of Technology,Wuhan430068,China;2.Jiangxi College of Construction,Nanchang330200,China;3.China Nerin Engineering Co.,Ltd.,Nanchang330031,China)

Abstract:Web chat with its low-cost,high-efficiency advantages of online real-time communication capabilities,thus becoming the most widely used Internet network services to network users.Detection of Internet chat rooms as a carrier-depth study of Web access to technical problems and the pretreatment.Of the principles and workflow of the web crawler,Web crawler in the introduction of network parallel multi-threading technology.Discuss the technical features of the WebLech and implementation technology,improvements made WebLech.

Keywords:Web crawler;Network parallel processing;Search strategy;Web structure mining

通過Google、Baidu等通用的搜索引擎或大型的網(wǎng)站資源在互聯(lián)網(wǎng)上手工檢索已不能滿足目前部分網(wǎng)絡(luò)應(yīng)用的要求。本文以網(wǎng)絡(luò)聊天室探測系統(tǒng)為研究載體,突出深入討論網(wǎng)絡(luò)專門搜索功能的優(yōu)化。網(wǎng)頁獲取和預(yù)處理模塊是其技術(shù)核心,如何合理設(shè)計或優(yōu)化一種有效的網(wǎng)頁獲取程序顯得尤其重要。主要針對網(wǎng)絡(luò)爬蟲的工作原理,引入并行多線程處理技術(shù),解決網(wǎng)絡(luò)爬蟲器運行速度和準(zhǔn)確性問題,最后提出可行的優(yōu)化WebLech網(wǎng)絡(luò)爬蟲程序的方案應(yīng)用于聊天室探測系統(tǒng)。

一、網(wǎng)絡(luò)爬蟲信息抓取分析

(一)網(wǎng)絡(luò)爬蟲的概念

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。網(wǎng)絡(luò)爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。

(二)網(wǎng)絡(luò)爬蟲的工作原理和流程

網(wǎng)絡(luò)爬蟲是頁面中最關(guān)鍵的部分,它的性能好壞直接影響著頁面搜索的性能和處理速度。網(wǎng)絡(luò)爬蟲一般都維護者一個URL隊列,利用該數(shù)據(jù)結(jié)構(gòu)來存儲已經(jīng)發(fā)現(xiàn)并待訪問和抓取的URL。URL的遍歷方式一般有:廣度優(yōu)先、深度優(yōu)先、隨機訪問等。網(wǎng)絡(luò)爬蟲的功能結(jié)構(gòu)見圖1。

圖1 網(wǎng)絡(luò)爬蟲的功能結(jié)構(gòu)圖

網(wǎng)絡(luò)爬蟲的各個模塊的主要功能介紹如下:

(1)下載模塊:該模塊是爬蟲與Internet的接口,作用是通過web協(xié)議對網(wǎng)頁的數(shù)據(jù)進行采集,將采集到的頁面遞給后續(xù)模塊處理。

(2)頁面解析模塊:該模塊的主要功能是將下載模塊采集下來的頁面進行解析,解析成html的統(tǒng)一代碼,提取其中具有超鏈接錨標(biāo)記的超鏈接地址,加入到超鏈接隊列中。將獲取的代碼轉(zhuǎn)化成統(tǒng)一的格式。

(3)鏈接過濾模塊:該模塊主要是針對重復(fù)鏈接和循環(huán)鏈接的篩選與過濾。

(4)URL數(shù)據(jù)庫:用來儲存經(jīng)過過濾的URL地址,以標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu)進行存儲,為下一個環(huán)節(jié)的URL隊列提供數(shù)據(jù)。

(5)URL隊列:用來存放由URL數(shù)據(jù)庫傳遞的URL地址,當(dāng)URL為空時爬蟲程序終止。

(6)Web數(shù)據(jù)庫:將所有爬蟲抓取的網(wǎng)頁中與搜索特征相關(guān)的頁面進行本地存儲。

二、頁面采集的并行處理

(一)并行處理概念的引入

計算必須在“合理”的時間內(nèi)完成就需要高計算速度的領(lǐng)域包括科學(xué)和工程問題的數(shù)學(xué)建模和模擬。用當(dāng)今計算機在合理的時間內(nèi)完成求解的那些問題。在存儲海量信息的環(huán)境必然存在時刻的更新和添加刪除等操作,任何用戶是無法忍受耗費大量時間與資源最后得到?jīng)]有價值或錯誤的輸出結(jié)果。因此,該聊天室探測系統(tǒng)需要高效的頁面抓取模塊,以保證網(wǎng)頁庫的更新,鏈接的有效性以及輸出結(jié)果準(zhǔn)確性。

(二)并行處理技術(shù)在網(wǎng)絡(luò)爬蟲器中的應(yīng)用

為了提高網(wǎng)絡(luò)爬蟲的運行效率,并行爬行器一般包含多個爬蟲,每個爬蟲需要完成的任務(wù)和單個的爬行器類似,它們從互聯(lián)網(wǎng)上下載網(wǎng)頁,并把網(wǎng)頁保存在本地的磁盤,從中抽取URL并沿著這些URL的指向繼續(xù)爬行。由于并行爬行器需要分割下載任務(wù),可能爬蟲會將自己抽取的URL發(fā)送給其他爬蟲。這些爬蟲可能分布在同一個局域網(wǎng)之中,或者分散在不同的地理位置。圖2描述了并行爬行器的一般架構(gòu)。

圖2 并行爬行器的一般架構(gòu)

三、WebLech網(wǎng)絡(luò)爬蟲的改進

WebLech是一款很優(yōu)秀的多線程網(wǎng)絡(luò)爬蟲程序,但如果直接做為搜索引擎的網(wǎng)絡(luò)爬蟲程序,還存在著不足,針對二個方面,做以下改進:

(一)擴充起始地址

WebLech運行時,從配置文件里獲取定義的地址(startLocation)作為起始地址,并且僅能設(shè)置一個起始地址。如果Web服務(wù)器不設(shè)置啟動網(wǎng)頁時,WebLech可能抓取不到服務(wù)器中的任何網(wǎng)頁。因此將起始地址和一些系統(tǒng)默認(rèn)的啟動文檔組合后作為擴充后的起始地址,以增大搜索的范圍。

把啟動文件名連接在startLocation設(shè)置的IP后形成的新地址作為WebLech運行時的startLocation。遍歷ipset地址集中的每個地址,把擴充后的每個ipaddress寫入屬性類對象props,然后執(zhí)行隨后的原程序至結(jié)束即可。

最后修改配置文件config/spider.properties里startLocation屬性為ipaddress,代碼如下:

props.setProperty("startLocation",ipaddress)

圖3為WebLech的配置文件WebLech.config.spider。

圖3 WebLech的配置文件

(二)修改鏈接

WebLech是依靠網(wǎng)頁文件中的超鏈接工作的。超鏈接可分為圖像超鏈接和文字超鏈接。圖像超鏈包括背景圖像的鏈接和鏈入圖像,文字超鏈接包括鏈入文字、多窗口頁面、浮動窗口和表單。為完善鏈接的處理,在類WebLech.spider.HTMLParser的函數(shù)List parseAsHTML(URL sourceURL,String textContent)的第4行之后增加浮動窗口和表單鏈接。

例如:extractAttributesFromTags("iframe","src",sourceURL,newURLs,newURLSet,textContent);

基于內(nèi)容的搜索引擎不需要搜索圖像,可刪除與圖像匹配有關(guān)的代碼。

參考文獻:

[1]劉強國.主題搜索引擎設(shè)計與研究[D].成都電子科技大學(xué),2007

篇5

【關(guān)鍵詞】 聚焦爬蟲 移動互聯(lián)網(wǎng)

一、引言

聚焦爬蟲(又稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人)是一種按照一定的規(guī)則、自動地抓取萬維網(wǎng)信息的程序或者腳本。隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1) 不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2) 通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。(3) 萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。(4) 通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。

為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。CollegeNews系統(tǒng)是一套包含高校教育類新聞獲取、相應(yīng)數(shù)據(jù)庫建立以及移動端軟件應(yīng)用的系統(tǒng)。在整套系統(tǒng)中,如何獲取與主題相關(guān)的新聞網(wǎng)頁數(shù)據(jù)是至關(guān)重要的一個部分,該部分由聚焦爬蟲程序予以實現(xiàn)。

二、 聚焦爬蟲簡介

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:(1) 對抓取目標(biāo)的描述或定義;(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;(3) 對URL的搜索策略。

抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。

三、聚焦爬蟲在獲取高校教育新聞中的應(yīng)用

在CollegeNews系統(tǒng)中,所有的數(shù)據(jù)來源均為高校教育類新聞,因此聚焦爬蟲的功能即為從互聯(lián)網(wǎng)上獲取與高校相關(guān)的新聞,并將相關(guān)內(nèi)容存入系統(tǒng)的數(shù)據(jù)庫中。用戶在使用高校新聞應(yīng)用時,客戶端向系統(tǒng)的服務(wù)器發(fā)送相關(guān)的請求,系統(tǒng)服務(wù)器返回所請求新聞的URL,由客戶端對相應(yīng)的URL進行解析,從而獲取相關(guān)的新聞資訊。通過使用聚焦爬蟲獲取高校新聞的原始數(shù)據(jù),可以避免傳統(tǒng)爬蟲爬取網(wǎng)頁所帶來的獲取內(nèi)容不符合所需主題、獲取到的無用處的內(nèi)容量過大的問題,對于處理能力較弱的系統(tǒng)來說很有益處。

3.1 需要解決的問題

若想讓聚焦爬蟲完成其功能,首先需要確定合適的種子URL集合,爬蟲自種子URL開始按照一定的搜索策略進行網(wǎng)頁爬取,在網(wǎng)頁爬取的過程中,需要提前確定待爬取頁面與所需主題的相關(guān)程度與重要性,依據(jù)相關(guān)度和重要性決定是否爬取該網(wǎng)頁。最后,還需要解決數(shù)據(jù)的更新周期問題,保證數(shù)據(jù)源的新鮮程度。在解決了上述問題之后,用戶即可獲取合適的新聞數(shù)據(jù)。

3.2 確定合適的種子URL集合

在聚焦爬蟲的算法設(shè)計中,種子URL集合的選取是十分重要的一環(huán)。如果選取的種子URL集合不合適,可能會導(dǎo)致程序爬取大量與主題無關(guān)的數(shù)據(jù),造成系統(tǒng)資源的浪費。

在CollegeNews系統(tǒng)中,為了充分保證系統(tǒng)的運行效率,即盡量避免爬取非高校教育新聞的網(wǎng)頁,在構(gòu)建種子URL集合時,采用使用指定起始網(wǎng)頁的方式,選擇了各類高校及相關(guān)新聞的入口地址作為起始網(wǎng)頁,從而確保了初始網(wǎng)頁的

在爬蟲運行的過程中,另一個重要的問題是如何去除已經(jīng)獲取過的重復(fù)頁面。該問題又可以分解為兩個部分:一是在某次爬蟲程序運行的過程中,如何去除本次運行已經(jīng)獲取過的頁面;二是在某次爬蟲程序運行的過程中,如何去除過往運行后已經(jīng)獲取過的頁面。針對第一個問題,本系統(tǒng)在每次爬蟲程序運行時,都會將已經(jīng)爬取過的網(wǎng)頁和尚未爬取的網(wǎng)頁分別存在兩個哈希表中,聚焦爬蟲每爬取一個網(wǎng)頁,會先比較該網(wǎng)頁是否存在于已經(jīng)爬取網(wǎng)頁的哈希表中,若不存在,則進行爬取操作。操作完成后,將該網(wǎng)頁從尚未爬取網(wǎng)頁的哈希表中刪除,同時添加到已經(jīng)爬取網(wǎng)頁的哈希表中。針對第二個問題,本系統(tǒng)在每次運行爬蟲程序時會預(yù)先設(shè)定一個閾值,同時爬蟲程序中也會設(shè)定一個初始的計數(shù)值為0。每當(dāng)爬蟲程序向數(shù)據(jù)庫中添加一條新數(shù)據(jù),若數(shù)據(jù)庫返回重復(fù)信息,則將計數(shù)值加一。若下一個網(wǎng)頁不是重復(fù)網(wǎng)頁,則將計數(shù)值清零。直到計數(shù)值大于閾值后,認(rèn)定所有新網(wǎng)頁已經(jīng)獲取完畢,結(jié)束本次爬取。

3.3 網(wǎng)頁搜索策略

一般而言,爬蟲程序的網(wǎng)頁搜索策略可以分為以下三種:深度優(yōu)先搜索、廣度優(yōu)先搜索和最佳優(yōu)先搜索。本系統(tǒng)的搜索策略充分考慮了新聞類網(wǎng)站的結(jié)構(gòu)特點,使用了深度優(yōu)先與最佳優(yōu)先相結(jié)合的搜索方法。

如前所述,本系統(tǒng)爬蟲程序的起始地址為各類高校及相關(guān)新聞的入口地址,以此實現(xiàn)局部最優(yōu)效果。由于絕大部分新聞類網(wǎng)站的結(jié)構(gòu)為目錄式結(jié)構(gòu),即網(wǎng)站由若干頁面(目錄)組成,每個頁面含有若干條新聞的超鏈接(項)。因此,本系統(tǒng)的爬蟲程序首先由起始地址獲取到該網(wǎng)站的目錄,此后再依次對每個目錄進行解析,獲取該目錄的所有項。按此流程進行網(wǎng)頁爬取后,即可獲得所需的新聞數(shù)據(jù)。

3.4 數(shù)據(jù)庫更新頻率

由于新聞具有一定的時效性,因此爬蟲程序需要不斷對網(wǎng)站進行掃描,將新增的網(wǎng)頁加入數(shù)據(jù)庫中。因為教育類新聞的時效性并沒有要點新聞或天氣預(yù)報那么強,因此CollegeNews系統(tǒng)在對數(shù)據(jù)庫進行數(shù)據(jù)更新時,充分考慮了教育新聞的這一特點,并未將更新頻率設(shè)計得過快,避免給服務(wù)器和網(wǎng)絡(luò)帶寬帶來太大的壓力。本系統(tǒng)以一定的頻率對種子URL集合中的網(wǎng)站起始地址進行檢查,若掃描到新的新聞,則繼續(xù)聚焦爬蟲程序,將新增的網(wǎng)頁添加到數(shù)據(jù)庫中;否則,中斷本次掃描,等待下一次檢查。

篇6

搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁建立索引數(shù)據(jù)庫在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每1個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每1個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。

1全文搜索引擎

全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

爬蟲設(shè)計是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質(zhì)量,另外在設(shè)計爬蟲時還必須考慮它對網(wǎng)絡(luò)和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度較慢的目標(biāo)站點,可能導(dǎo)致該站點出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪問站點的管理員能夠確定訪問內(nèi)容,Index是一個龐大的數(shù)據(jù)庫,爬蟲提取的網(wǎng)頁將被放入到Index中建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。

2目錄搜索引擎

目錄搜索引擎的數(shù)據(jù)庫是依靠專職人員建立的,這些人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別,把站點URL和描述放在這個類別中,當(dāng)用戶查詢某個關(guān)鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會將之添加到合適的類別中。

目錄的結(jié)構(gòu)為樹形結(jié)構(gòu),首頁提供了最基本的入口,用戶可以逐級地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞。由于目錄式搜索引擎只在保存了對站點的描述中搜索,因此站點本身的變化不會反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡(luò)營銷中的應(yīng)用主要有下列特點:

通常只能收錄網(wǎng)站首頁(或者若干頻道),而不能將大量網(wǎng)頁都提交給分類目錄;網(wǎng)站一旦被收錄將在一定時期內(nèi)保持穩(wěn)定;無法通過"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名;在高質(zhì)量的分類目錄登錄,對于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價值;緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。

3元搜索引擎

我們可將元搜索引擎看成具有雙層客戶機/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請求,元搜索引擎再根據(jù)該請求向多個搜索引擎發(fā)出實際檢索請求,搜索引擎執(zhí)行元搜索引擎檢索請求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結(jié)果經(jīng)過整理再以應(yīng)答形式傳送給實際用戶。當(dāng)然,某些元搜索引擎具有略微不同的機制。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結(jié)果進行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。

它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時,只提取出每個搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實現(xiàn)起比較簡單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問少數(shù)幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常常會出現(xiàn)錯誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點,但它的信息準(zhǔn)確這一優(yōu)點使其在一定的領(lǐng)域和時間內(nèi)仍會被使用,機器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結(jié)合目錄式搜索引擎,機器人搜索引擎的優(yōu)勢,以元搜索引擎為核心的多層搜索引擎是搜索引擎的發(fā)展方向。

搜索引擎技術(shù)功能強大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點。目前的搜索引擎主要有幾個特點:多樣化和個性化的服務(wù)。強大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因為搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,仍然無法實現(xiàn)。

搜索引擎越來越不能滿足用戶的各種信息需求,如收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無法打開查詢的結(jié)果。網(wǎng)絡(luò)信息時刻變動,實時搜索幾乎不可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度慢,遍歷如此龐雜的網(wǎng)絡(luò)時間花費非常龐大,這就是不能實時搜索的原因。(編選: 勇全)

參考文獻

[1]張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報,2004,(4).

[2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢[J].情報雜志,2001,(5).

[3]陽小華.分布式WWW信息收集技術(shù)[J].計算機工程與應(yīng)用,2000,(5).

篇7

關(guān)鍵詞:信息檢索;聚焦爬蟲;鄰居規(guī)則;分類算法;鏈接優(yōu)先級

中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)14-0151-113

1概述

隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷增長,如何有效地發(fā)現(xiàn)、過濾、處理和利用這些數(shù)據(jù)成為了一個需要解決的問題。適合特定主題和個性化搜索的聚焦爬蟲是一個有效的解決途徑。聚集爬蟲可被分作三類:經(jīng)典聚焦爬蟲,基于錨文本與主題詞匯集的相似性,利用機器學(xué)習(xí)評估鏈接優(yōu)先級;語義聚焦爬蟲,分析頁面與主題的語義相關(guān)性計算各鏈接下載優(yōu)先級;在線增量自學(xué)習(xí)聚焦爬蟲,采用可更新的分類器指定頁面優(yōu)先級,爬行過程中分類器可在線增強學(xué)習(xí),從而提高分類準(zhǔn)確性和爬行精度。本文提出了一種基于錨文本和網(wǎng)頁類型的聚焦爬蟲,相對于經(jīng)典聚焦爬蟲,本文爬蟲考慮了鏈接所在頁面是否是主題相關(guān)網(wǎng)頁或?qū)Ш骄W(wǎng)頁,并以此評估鏈接優(yōu)先級。

2聚焦爬蟲模型

2.1確定鏈接屬性

錨文本與主題間的相似度通過式(1)來確定。

2.2評估鏈接優(yōu)先級

本文采用基于鄰居規(guī)則的分類算法[1],根據(jù)鏈接與主題的相似度和鏈接的類別將鏈接分為0到5級,5級優(yōu)先級最高,0級優(yōu)先級最低,爬蟲爬行過程中優(yōu)先爬取優(yōu)先級高的鏈接并舍棄0級鏈接。

本文爬蟲通過有標(biāo)注的訓(xùn)練樣本D完成算法訓(xùn)練過程,得到特征屬性集合S,在確定鏈接屬性sim(q,p)和類別后,通過算法分類過程得到鏈接類別,即確定鏈接優(yōu)先級。

2.3系統(tǒng)結(jié)構(gòu)

根據(jù)上述原理建立的聚焦爬蟲模型如圖1。與通用web爬行器相比,圖3增加了三個組件:鏈接優(yōu)先級評估器、主題相關(guān)判定器和導(dǎo)航網(wǎng)頁判定器。主題相關(guān)判定器和導(dǎo)航網(wǎng)頁判定器用于確定抽取出來的鏈接類別,鏈接優(yōu)先級評估器用于確定提供主題相關(guān)頁面的可能性。

該系統(tǒng)運行過程如下:從種子鏈接開始爬取網(wǎng)頁,判定下載下來的網(wǎng)頁是否主題相關(guān)、是否是導(dǎo)航頁面,并由此確定抽取出來的鏈接的類別;計算鏈接錨文本與主題的相似度;利用鏈接優(yōu)先級評估器評估鏈接的優(yōu)先級,舍棄其中0級的鏈接后放入到優(yōu)先級隊列中;爬蟲不停地從優(yōu)先級隊列隊首取得最高優(yōu)先級鏈接進行爬取,爬取了指定數(shù)目的鏈接后終止。

3系統(tǒng)實現(xiàn)及實驗

3.1系統(tǒng)實現(xiàn)

根據(jù)上述的系統(tǒng)模型,在windows系統(tǒng)下MyEclipse 2013實現(xiàn)了一個聚焦爬蟲原型系統(tǒng)webcollector。主題相關(guān)判別器和導(dǎo)航頁面判別器均使用樸素貝葉斯分類器,鏈接優(yōu)先級評估器使用基于鄰居規(guī)則分類算法的分類器,將鏈接分為0到5級。主題相關(guān)判別器的計算和訓(xùn)練采用頁面特征文本,包含當(dāng)前頁面的標(biāo)題、meta中keywords、description和tabs以及網(wǎng)頁正文;導(dǎo)航頁面判別器的計算和訓(xùn)練采用頁面中所有鏈接的錨文本,包括相似度大于0的鏈接總數(shù)、鏈接相似度總和、平均鏈接相似度等。在計算主題相似度sim時,先進行分詞并過濾中文中”?!薄ⅰ?,”、”的”等常用符號和停用詞。系統(tǒng)實現(xiàn)參考了中國科學(xué)院計算所的漢語詞法分析系統(tǒng)ICTCLAS和懷卡托大學(xué)的weka機器學(xué)習(xí)軟件。

3.2實驗

為了檢驗本文所用算法的有效性,將本文模型的某些功能去掉,分別形成標(biāo)準(zhǔn)通用爬蟲模型和標(biāo)準(zhǔn)聚焦爬蟲模型,然后比較3種模型。實驗中爬蟲的種子網(wǎng)頁為新浪體育(http:∥.cn)、網(wǎng)易體育(http:∥.cn)、搜狐體育(http:∥)。實驗選擇的評測指標(biāo)為搜索到的主題相關(guān)頁面的個數(shù)、訪問鏈接數(shù)和搜索主題相關(guān)頁面的回調(diào)率。實驗平臺為windows 10,CPU為IntelI5-5200U 2.19GHz,內(nèi)存為8GB,實驗主題為”足球”。用標(biāo)準(zhǔn)通用爬蟲從上述種子網(wǎng)頁爬取了495個頁面,進行兩次標(biāo)記后分別作為主題相關(guān)判別器和導(dǎo)航網(wǎng)頁判別器的訓(xùn)練數(shù)據(jù)。然后從中選取9個典型網(wǎng)頁抽取出1131鏈接,進行標(biāo)記后作為鏈接優(yōu)先級評估器的訓(xùn)練數(shù)據(jù)。爬蟲在爬行過程中記錄訪問的鏈接數(shù)、下載的頁面數(shù),以最終下載的最大相關(guān)頁面數(shù)為1計算回調(diào)率。

3.3實驗結(jié)果討論

由圖4可以看出,在爬取9500個頁面的過程中,基于CRN分類算法的聚焦爬蟲和標(biāo)準(zhǔn)聚焦爬蟲都比通用網(wǎng)絡(luò)爬蟲具有更好的性能。另外可以看出,本文聚焦爬蟲在下載頁面抽取鏈接的過程中,由于采用了CRN分類算法識別更有可能指向主題相關(guān)頁面的鏈接,爬行的主題相關(guān)頁面數(shù)高于標(biāo)準(zhǔn)聚焦爬蟲。由圖5可以看出,基于CRN分類算法的聚焦爬蟲能夠比較穩(wěn)定地爬取到主題相關(guān)頁面。

篇8

關(guān)鍵詞:高職教育園區(qū);網(wǎng)絡(luò)輿情;監(jiān)測管理

中圖分類號:G640文獻標(biāo)識碼:A文章編號:1002-4107(2014)05-0066-02

進入21世紀(jì)信息社會網(wǎng)絡(luò)媒體已成為第四媒體,它作為反映社會輿情的主要載體,一旦形成網(wǎng)絡(luò)輿情對社會將造成巨大影響。為此,黨和政府以及各級組織對其密切關(guān)注,許多地方政府要求建有互聯(lián)網(wǎng)絡(luò)的單位必須有網(wǎng)絡(luò)信息管理組織保障機制,并對網(wǎng)絡(luò)輿情進行監(jiān)測管理分析。高職教育園區(qū)涉及學(xué)校多、學(xué)生年齡均在十七八歲左右,學(xué)生上網(wǎng)人數(shù)達100%。校園網(wǎng)絡(luò)、園區(qū)網(wǎng)絡(luò)已成為高等職業(yè)院校信息快速傳播的主要載體,并由于大學(xué)生的自身因素及網(wǎng)絡(luò)的實時性與交互性,網(wǎng)絡(luò)可以集中表達學(xué)生群體對校園中的某些現(xiàn)象以及社會敏感問題所表達出的態(tài)度、意見,并宣泄自己的情緒。為此,研究與構(gòu)建高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測管理體系顯得尤為迫切。

一、高職教育園區(qū)網(wǎng)絡(luò)輿情的特點

從過去傳統(tǒng)校園的公眾表達方式到今天的網(wǎng)絡(luò)公眾表達方式的轉(zhuǎn)變,對一些熱點敏感問題的傳播速度更快、規(guī)模更大,輿情事件的不斷增多,使社會影響面廣,易引發(fā)過激行為。因此,分析高職教育園區(qū)網(wǎng)絡(luò)輿情特點,對其進行監(jiān)測管理分析并解決出現(xiàn)的問題,適時正確引導(dǎo)是構(gòu)建一個和諧高職教育園區(qū),促進高職學(xué)生健康成長的一項長期艱巨的任務(wù)。

(一)高職教育園區(qū)網(wǎng)絡(luò)客觀因素

當(dāng)互聯(lián)網(wǎng)絡(luò)傳播公眾對某些難點、熱點問題所表現(xiàn)的有一定影響力的意見或言論情況時,使用校園網(wǎng)絡(luò)、園區(qū)網(wǎng)絡(luò)的在校大學(xué)生群體亦會關(guān)注,并參與表達態(tài)度意見和情緒,同時他們還會關(guān)注校園中的一些現(xiàn)象,這些因素的總和都基于網(wǎng)絡(luò)傳播當(dāng)前某些焦點事件。網(wǎng)絡(luò)是把雙刃劍,如何建設(shè)、維護園區(qū)網(wǎng)絡(luò)安全,應(yīng)對不良信息引起的聚眾趨勢,并利用技術(shù)手段監(jiān)測管理園區(qū)網(wǎng)絡(luò),是防范高職教育園區(qū)網(wǎng)絡(luò)輿情的一項重要特點。

(二)高職學(xué)生自身因素

由于參與高職教育的學(xué)生年輕氣盛,大多數(shù)都為十七八歲的獨生子女,自律能力、挫折適應(yīng)能力和環(huán)境適應(yīng)能力相對弱一些,思想情緒極易產(chǎn)生波動。再者大部分高職學(xué)生由于高中時成績不理想,考進高職院校心里有一定的失落感,為此缺乏自信心,加上當(dāng)前社會上追求高學(xué)歷現(xiàn)象更使得高職學(xué)生產(chǎn)生更大的心理壓力,一旦社會輿情蔓延到校園極易產(chǎn)生疊加的網(wǎng)絡(luò)輿情群體效應(yīng)。

二、高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測管理體系的構(gòu)建

從高職教育園區(qū)網(wǎng)絡(luò)輿情特點可見構(gòu)建園區(qū)網(wǎng)絡(luò)輿情監(jiān)測管理體系應(yīng)考慮以下幾方面。

(一)園區(qū)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的基礎(chǔ)設(shè)施建設(shè)

目前高職教育園區(qū)各院校都建有各自的校園網(wǎng)絡(luò),在校園網(wǎng)絡(luò)基礎(chǔ)上組建園區(qū)網(wǎng)絡(luò),實現(xiàn)校園網(wǎng)絡(luò)互聯(lián)。如常州高職教育園區(qū)共有5所院校,是江蘇省唯一的示范性高職教育園區(qū),全日制在校學(xué)生約7.6萬余名。實現(xiàn)園區(qū)網(wǎng)絡(luò)互聯(lián)其網(wǎng)絡(luò)架構(gòu)示意圖,如圖1所示。

圖1園區(qū)網(wǎng)絡(luò)架構(gòu)示意圖

(二)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的框架結(jié)構(gòu)

目前輿情信息抓取主要使用以下幾種技術(shù):元搜索采集技術(shù)、傳統(tǒng)網(wǎng)絡(luò)爬蟲技術(shù)、論壇爬蟲技術(shù)。整個園區(qū)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)分為輿情信息采集、輿情數(shù)據(jù)處理及輿情信息查詢展示三層,如圖2所示。

在輿情信息采集層主要根據(jù)用戶的監(jiān)測目標(biāo)以盡可能小的代價從園區(qū)網(wǎng)上盡可能全面地得到所有輿情信息,它是監(jiān)測網(wǎng)絡(luò)輿情的前提和保證。園區(qū)網(wǎng)絡(luò)輿情信息的主要爆發(fā)點有:博客、論壇、微博及新聞等網(wǎng)站,輿情信息分布散、各種類型網(wǎng)站結(jié)構(gòu)不同,為此針對不同類型的站點采用不同的爬蟲采集輿情信息是一種明智的做法。例如,采集源著重抓取論壇數(shù)據(jù)時,專為網(wǎng)站論壇設(shè)計的一類爬蟲稱為論壇爬蟲。由于網(wǎng)站論壇的鏈接種類較多,且有較多的無效鏈接,還有一些鏈接的同一話題和動態(tài)性分布在多個頁面上,這樣使用傳統(tǒng)爬蟲會在論壇站點上出現(xiàn)“爬蟲陷阱”,“相同話題下的頁面會喪失頁面關(guān)系”,并且“爬行的頁面質(zhì)量低下”等問題。而使用基于層次模型論壇爬蟲LMFC(Based on the level model of forum crawler下載效率高、信息更新速度更快。這種基于模板要求網(wǎng)頁信息提取法,其提取鏈接的效果是由模板中的規(guī)則決定的,采用模板法比程序自動提取法更加準(zhǔn)確。但是隨著論壇爬蟲持續(xù)運行URL(統(tǒng)一資源定位)庫會逐漸增大,因而對LMFC數(shù)據(jù)更新特點往往用“話題更新率”、“帖子更新率”評價其性能。

輿情信息處理層是針對采集到的數(shù)據(jù)進行過濾、分析。采用基于本體的挖掘技術(shù)。如通過信息采集層獲取到的網(wǎng)頁根據(jù)其頁面的特性,并使用基于模板的抽取網(wǎng)頁信息方法抽取其中的文本信息,也可直接存入數(shù)據(jù)庫中。另外,將需要存入索引的文本信息進一步做索引和文本分詞處理。針對存入索引的文本采用基于本體的文本分類法進行過濾,除去與檢測目標(biāo)不符的信息,最后基于本體的聚類法得到輿情熱點。

輿情信息查詢與展示層是輿情監(jiān)測系統(tǒng)的主要功能。有園區(qū)全網(wǎng)搜索、本地搜索、熱點查看與統(tǒng)計、輿情報警。例如:園區(qū)全網(wǎng)搜索采用了元搜索引擎技術(shù),無須下載檢索項中的URL對應(yīng)的頁面,將提取各搜索引擎返回的檢索項,剔除廣告和重復(fù)信息,并重新排序。將檢索結(jié)構(gòu)保存到緩存區(qū),最終展示給用戶。

園區(qū)網(wǎng)絡(luò)輿情監(jiān)測體系有效地推進高職教育園區(qū)信息化建設(shè),充分利用技術(shù)手段達到園區(qū)網(wǎng)絡(luò)監(jiān)、管、控,保障了高職教育園區(qū)的和諧穩(wěn)定。

三、提高學(xué)生信息素養(yǎng)的策略

建立高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)積極防御園區(qū)網(wǎng)絡(luò)輿情時,還需特別重視提高學(xué)生信息素養(yǎng)。

(一)采取跟進式管理

高職學(xué)生思想及心理處于不穩(wěn)定期。在園區(qū)網(wǎng)絡(luò)、校園網(wǎng)絡(luò)交流過程中,網(wǎng)絡(luò)輿情使部分學(xué)生個體表達受影響而發(fā)生變化,容易產(chǎn)生從眾心理,形成一種集體心理。對社會現(xiàn)象、現(xiàn)實問題反映比較敏感。高職學(xué)生理想獨立勇于維護自身利益。一旦網(wǎng)絡(luò)信息涉及學(xué)生自身利益的問題都極易造成學(xué)生關(guān)注和共鳴,進而引發(fā)起各類網(wǎng)絡(luò)輿情,甚至可以導(dǎo)致一些群體突發(fā)性事件。為此對高職教育園區(qū)的學(xué)生采取跟進式管理。(1)輔導(dǎo)員跟進學(xué)生的思想工作,及時理解學(xué)生的想法,掌握思想動態(tài)。(2)任課教師跟進課堂啟發(fā)式教育,在講授專業(yè)文化基礎(chǔ)知識課的同時,培養(yǎng)學(xué)生利用網(wǎng)絡(luò)主動學(xué)習(xí)獲取課外知識,調(diào)動學(xué)生的學(xué)習(xí)興趣。(3)跟進校園文化建設(shè)。積極營造和諧、綠色、積極向上、學(xué)術(shù)氣息濃厚的校園文化氛圍,使得學(xué)生置身于校園感受的是正能量。

(二)規(guī)范學(xué)生上網(wǎng)行為

組織高職學(xué)生學(xué)習(xí)有關(guān)國家、省、市、校的互聯(lián)網(wǎng)絡(luò)管理規(guī)定,在網(wǎng)絡(luò)這個虛擬社會中必須遵守有關(guān)法律法規(guī),加強學(xué)生的自律性。并以知名度高、學(xué)生崇拜、社會影響力高的專家為主,開設(shè)學(xué)生喜愛、高度關(guān)注并踴躍參與的專題講座、通識課程、品牌論壇、使得園區(qū)校園網(wǎng)絡(luò)成為弘揚正能量的重要陣地。

培養(yǎng)學(xué)生文明的網(wǎng)絡(luò)行為。網(wǎng)絡(luò)作為推動素質(zhì)教育的重要平臺,在網(wǎng)站建設(shè)中不僅需考慮內(nèi)容豐富多彩而且要貼近實踐、貼近師生和貼近生活,成為師生溝通交流平臺。只有學(xué)生能自覺抵制不良信息,才能不斷減輕和消除網(wǎng)絡(luò)的負(fù)面影響。

(三)提高學(xué)生辨別網(wǎng)絡(luò)虛假信息的能力

互聯(lián)網(wǎng)上虛假信息及不良信息往往引發(fā)錯誤輿論導(dǎo)向。如何提高學(xué)生判斷網(wǎng)上不良信息能力是高校教育工作者研究重要課題之一,從客觀上分析一些交互性比較強的網(wǎng)站上,存在網(wǎng)絡(luò)信息人為操作,產(chǎn)生的虛假信息極大地?fù)p害了網(wǎng)絡(luò)媒體的公信度。為此學(xué)生在日常學(xué)習(xí)生活中需不斷建立獲得正確媒體信息和判斷信息價值的知識結(jié)構(gòu),其次增強自身對是非、美丑、正誤的判斷能力,逐漸培養(yǎng)對網(wǎng)絡(luò)信息的辨析和選擇能力。熟練掌握在網(wǎng)上如何獲取有效及健康的信息方法,使學(xué)生成為網(wǎng)絡(luò)媒體的主動參與者,而不只是網(wǎng)絡(luò)媒介信息的被動接受者。

學(xué)生學(xué)會將獲取的信息進行分類歸納,根據(jù)自己的學(xué)習(xí)需求去選擇和辨析哪些是自己所需要的網(wǎng)絡(luò)信息,運用好網(wǎng)絡(luò)這個先進的工具進行文化知識的學(xué)習(xí)和學(xué)科知識的研究。并準(zhǔn)確地表達自己的思想理念、對待事物的看法與態(tài)度及時與他人溝通與交流。

高職教育園區(qū)網(wǎng)絡(luò)輿情監(jiān)測與管理體系的建立,為校園穩(wěn)定并高效地開展教學(xué)、科研提供有力保障。網(wǎng)絡(luò)新技術(shù)飛速發(fā)展,迫使網(wǎng)絡(luò)輿情監(jiān)測與管理也要以更新的技術(shù)及更快的反應(yīng)速度來應(yīng)對復(fù)雜的變化,對園區(qū)網(wǎng)絡(luò)輿情監(jiān)測與管理還需不斷地加強理論研究,并不斷地開展實踐研究。

參考文獻:

[1]李榮素,趙衛(wèi)利.高等職業(yè)院校網(wǎng)絡(luò)輿情特點及管理研究[J].產(chǎn)業(yè)與科技論壇,2011,(20).

[2]伍海江.面向網(wǎng)絡(luò)輿情監(jiān)測的關(guān)鍵技術(shù)研究[D].北京:華北電力大學(xué),2012.

篇9

關(guān)鍵詞:惡意發(fā)帖檢測;文本情感分析;SVM;分類;聚類

中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2014)07-1403-04

隨著互聯(lián)網(wǎng)( Internet)的蓬勃發(fā)展,網(wǎng)絡(luò)作為一種新的媒介形式,已被人們廣泛使用。互聯(lián)網(wǎng)的發(fā)展過程“是一個時時處處有人參與的、不斷演化的、自適應(yīng)的、不斷涌現(xiàn)出新的整體特性的過程,是一個開放的、人在其中與社會系統(tǒng)緊密耦合的復(fù)雜巨系統(tǒng)[1]”,其業(yè)務(wù)流量自相似、拓?fù)浣Y(jié)構(gòu)無尺度等特性的發(fā)現(xiàn)為人們正確認(rèn)識和管理互聯(lián)網(wǎng)起到了重要作用。

網(wǎng)絡(luò)論壇是網(wǎng)絡(luò)輿論形成的一股重要力量,廣大網(wǎng)民通過網(wǎng)絡(luò)來表達觀點,一旦遇到社會熱點問題,瞬間就能形成巨大網(wǎng)絡(luò)的輿論。網(wǎng)民通過“發(fā)帖”發(fā)表意見、參與輿論形成,與論壇網(wǎng)站共同構(gòu)成了人機結(jié)合的虛擬系統(tǒng)[2]。以網(wǎng)絡(luò)水軍為主體的惡意發(fā)帖能主導(dǎo)輿論走勢,產(chǎn)生錯誤的輿論導(dǎo)向以及消極的影響,所以對惡意發(fā)帖的檢測就顯得尤為重要。

本文通過對大量論壇發(fā)帖信息進行收集分析,形成帖子庫,并對帖子內(nèi)容進行文本情感分析,產(chǎn)生惡意發(fā)帖聚類,接著使用支持向量機(SVM)對惡意帖子進行分類,實時產(chǎn)生預(yù)警信息,并對發(fā)帖源頭進行干預(yù)。

1 理論背景

基于情感分析的惡意發(fā)帖檢測系統(tǒng)的分析與研究中,涉及到的理論主要有三個方面,分別是數(shù)據(jù)挖掘技術(shù),文本情感分析和支持向量機。

1.1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和機器學(xué)習(xí)領(lǐng)域的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的過程[3]。

數(shù)據(jù)挖掘的分類、聚類、關(guān)聯(lián)規(guī)則、預(yù)測算法能很好的應(yīng)用到惡意發(fā)帖的分析檢測與追蹤之中。主要處理如下:

1) 可以對帖子庫中的惡意帖子根據(jù)惡意的等級不同進行分類處理;

2) 可以對惡意帖子進行聚類分析,找出它們的團伙關(guān)系;

3) 利用關(guān)聯(lián)規(guī)則,找出發(fā)帖人與不同帖子之間的關(guān)聯(lián)關(guān)系;

4) 利用預(yù)測技術(shù)預(yù)測出哪些發(fā)帖人有惡意發(fā)帖的趨勢;

5) 利用帖子間的文本的近似的比對,找出某個人多次改變手法發(fā)帖。

1.2 文本情感分類

文本情感分類是指通過挖掘和分析文本中的立場、觀點、看法、好惡等主觀信息,對文本的情感傾向做出類別判斷[4]。文本情感分析使用文本極性分析將帖子分為正面或負(fù)面,論壇發(fā)帖文本情感分析具體工作流程如圖1所示。

1) 觀點摘要。從一個或若干包含主觀性信息的文本文檔中概述出其中主觀性信息的主要內(nèi)容。基于觀點的摘要分為兩種,一種是單文檔摘要,另一種是多文檔摘要。

2) 文本極性分類。針對給定的文本,使用情感分類方法,識別其中主觀性信息的傾向是正面還是負(fù)面的。Naive Bayes、最大熵分類(Maximum Entropy Classification)和支持向量機是常用的情感分類方法。

3) 主觀和客觀識別或分類。識別文本是對事實的描述(客觀的文本)還是包含有意見、評價等主觀性信息(主觀性文本)。

1.3 支持向量機

支持向量機(SVM)是由Vapnik在1963年解決模式識別問題時提出了支持向量方法,這種方法從訓(xùn)練集中選擇一組特征子集,使得對特征子集的劃分等價于對整個數(shù)據(jù)集的劃分[5]。

SVM從線性可分情況下的最優(yōu)分類面發(fā)展而來,廣泛應(yīng)用于數(shù)據(jù)分類、手寫識別等領(lǐng)域。SVM考慮尋找一個滿足分類要求的超平面,并且使訓(xùn)練集中的點距離分類面盡可能的遠(yuǎn),也就是尋找一個分類面使它兩側(cè)的空白區(qū)域(Margin)最大。

3 系統(tǒng)功能分析

整個系統(tǒng)的設(shè)計與實現(xiàn),包括網(wǎng)絡(luò)發(fā)帖采集系統(tǒng),網(wǎng)絡(luò)發(fā)帖傾向性分析,惡意發(fā)帖分析檢測引擎和惡意發(fā)帖分析監(jiān)測與監(jiān)控追蹤系統(tǒng),下面就四個系統(tǒng)的功能進行分析。

3.1網(wǎng)絡(luò)發(fā)帖采集系統(tǒng)

網(wǎng)絡(luò)發(fā)帖采集系統(tǒng)主要功能是完成網(wǎng)絡(luò)發(fā)帖數(shù)據(jù)的實時采集整理,其中負(fù)責(zé)采集數(shù)據(jù)的是網(wǎng)絡(luò)爬蟲,其運行具體步驟如下:

1) 用戶通過配置管理界面配置爬蟲的數(shù)據(jù)源、頁面解析邏輯、數(shù)據(jù)存取邏輯和高級設(shè)置,配置數(shù)據(jù)將保存在爬蟲配置數(shù)據(jù)庫中;

2) 用戶在數(shù)據(jù)抓取監(jiān)控界面開始運行數(shù)據(jù)抓取任務(wù)時,系統(tǒng)通過讀取頁面表中配置數(shù)據(jù)利用爬蟲裝配器組裝爬蟲執(zhí)行體,讀取高級配置爬蟲控制器為爬蟲執(zhí)行體分配執(zhí)行線程、URL隊列等運行時參數(shù),爬蟲將在爬蟲控制器的管理下運行,可進行任務(wù)調(diào)度、定時執(zhí)行、自動更新、實時監(jiān)控等操作;

3) 爬蟲抓取的數(shù)據(jù)將根據(jù)配置自動保存到相應(yīng)數(shù)據(jù)庫中,用戶可以通過數(shù)據(jù)庫管理界面進行查看、導(dǎo)出等操作。

3.2網(wǎng)絡(luò)發(fā)帖傾向性分析

網(wǎng)絡(luò)發(fā)帖傾向性分析主要文本情感分析的方法進行帖子分析,因為一個發(fā)帖主體可能在多個評論地點(論壇)上進行評論,本系統(tǒng)在文檔情感分析的基礎(chǔ)上,結(jié)合語義傾向,基于LDA模型,使用SVM方法對惡意發(fā)帖進行分類。其具體算法流程描述如下。

1) 文檔集合預(yù)處理。將每個文檔中的文本分割為句子,以句子為單位進行詞性標(biāo)注,得到句子中每個詞的詞性。

2) LDA構(gòu)建。將句子集合中的每個句子當(dāng)作LDA模型中的文檔,為整個句子文檔集合建立一個LDA模型。

3) 主題重要度計算。根據(jù)LDA模型得到句子的主題分布和主題詞匯分布,計算每個潛在主題的重要度。

4) 句子重要度計算。根據(jù)主題重要度,結(jié)合主題詞分布和語義傾向,計算主題中每個句子的權(quán)重。

5) 語句排序。根據(jù)句子權(quán)重對句子進行排序,如果權(quán)重相同,非停用詞在句子占比重大的排在前面。

6) 帖子分類。按照句子排序順序結(jié)果使用SVM方法對帖子的惡意情況進行分類。

3.3惡意發(fā)帖分析檢測引擎

惡意發(fā)帖分析檢測引擎為本系統(tǒng)的核心,其主要包括以下功能:熱點識別能力、自動分類、聚類分析、傾向性分析與統(tǒng)計、主題跟蹤、信息自動摘要功能、截取證據(jù)、趨勢分析、突發(fā)事件分析、報警系統(tǒng)、統(tǒng)計報告。

惡意發(fā)帖分析檢測的核心技術(shù)在于惡意發(fā)帖分析檢測引擎,涉及最主要的技術(shù)包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤等技術(shù)。惡意發(fā)帖分析檢測引擎是惡意發(fā)帖分析與檢測系統(tǒng)的核心,主要功能如下:

1) 熱點(敏感)話題識別與追蹤。利用關(guān)鍵詞布控和語義分析,識別敏感話題。

2) 情感傾向分析。對于每個話題,對每個發(fā)貼人發(fā)表帖子的觀點、傾向性(正負(fù)面、褒貶義)進行分析與統(tǒng)計。

3) 主題跟蹤。分析新發(fā)表文章、貼子的話題是否與已有主題相同。

4) 帖子自動摘要。對各類主題,各類傾向能夠形成自動摘要。

5) 發(fā)帖趨勢分析。分析某個主題在不同的時間段內(nèi),網(wǎng)民的關(guān)注程度。

6) 突發(fā)事件分析。對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件發(fā)展的趨勢。

7) 實時預(yù)警。對突發(fā)事件、涉及敏感話題及時發(fā)現(xiàn)并發(fā)出預(yù)警信息。

8) 統(tǒng)計報告。根據(jù)輿情分析引擎處理后的結(jié)果庫生成報告,用戶可以瀏覽、檢索。根據(jù)指定條件對熱點話題、傾向性進行查詢,提供決策支持。

3.4惡意發(fā)帖分析監(jiān)測與追蹤系統(tǒng)

惡意發(fā)帖分析監(jiān)測與追蹤系統(tǒng)主要是對指定網(wǎng)站的帖子進行數(shù)據(jù)采集存儲到數(shù)據(jù)庫中,再對庫中的帖子情況進行分析,實現(xiàn)實時監(jiān)測和追蹤。主要功能如下:

1) 對庫中的帖子提取關(guān)鍵詞,進行文本傾向性分析。

2) 根據(jù)極性不一樣,利用分類算法為帖子指定不同的惡意等級,并根據(jù)等級不一樣不同的預(yù)警信息。

3) 利用聚類算法對帖子實現(xiàn)自動歸類,挖掘出發(fā)帖人之間的團伙關(guān)系。

4) 文本近似度分析,發(fā)現(xiàn)改變手法多次發(fā)帖的發(fā)帖人。

5) 利用IP地址及發(fā)帖人之間的關(guān)系定位發(fā)帖人,實現(xiàn)對惡意發(fā)帖的檢測與追蹤。

帖子檢測是本系統(tǒng)的核心,即帖子按惡意度分級,將一定級別的惡意帖子收集到一個庫中,然后進行統(tǒng)計,分為兩種情況:

1) 完全相同的人發(fā)帖(同一個人用一個賬號多次發(fā)帖和同一個人用多個賬號一次發(fā)帖,如果多個賬號發(fā)的是同一個帖子,那么應(yīng)該是同一個人)。

2) 類似的人發(fā)帖(一個人改變手法,多次發(fā)帖),或者可以看成是一個團伙。

惡意帖子檢測流程如圖4所示。

建立惡意帖子庫后,利用相應(yīng)的字段信息,例如:發(fā)帖者,發(fā)帖網(wǎng)站,發(fā)帖者賬號,帖子內(nèi)容,跟帖者,跟帖內(nèi)容。利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則挖掘技術(shù)以及其他技術(shù),實現(xiàn)如下功能。

1) 找出同一個賬號多次發(fā)出同一惡意帖子,進而定位這個賬號,進行跟蹤,同IT部門和技術(shù)部門合作,找出發(fā)帖者的IP地址,確認(rèn)發(fā)帖者的位置和身份。

2) 直接根據(jù)發(fā)帖內(nèi)容進行比對,如果是內(nèi)容相同的帖子,來自于不同和和不同賬號,根據(jù)這些賬號是否由同一個IP地址發(fā)出,確認(rèn)是否為同一個人用多個賬號發(fā)帖;如果IP不同就有可能是一個同伙或組織用多個賬號發(fā)出同一個帖子。

3) 根據(jù)內(nèi)容的相似度,找出類似的發(fā)帖,找出其賬號之間的關(guān)聯(lián),確定是否為一個人改變手法,多次發(fā)帖。

4) 找出惡意帖子庫中的跟帖關(guān)系,建立關(guān)系網(wǎng)絡(luò)圖,利用網(wǎng)絡(luò)理論中子圖發(fā)現(xiàn)和查詢技術(shù),找出密集型子圖,發(fā)現(xiàn)惡意發(fā)帖團伙。

5) 根據(jù)密集子圖的密集程度和活躍程度,確定發(fā)帖信息的危害程度以及突發(fā)事件的可能性,以便及時預(yù)警。

4 結(jié)束語

本系統(tǒng)建立面向主題的、關(guān)鍵詞的、行業(yè)的、主流網(wǎng)絡(luò)平臺的惡意發(fā)帖信息的語料庫;搭建了惡意發(fā)帖檢測分析平臺,及時識別惡意發(fā)帖信息,使用網(wǎng)絡(luò)發(fā)帖分析檢測引擎,對惡意發(fā)帖信息進行分析處理;制定通用的惡意發(fā)帖分級制度,建立惡意發(fā)帖監(jiān)控預(yù)警標(biāo)準(zhǔn)。建立惡意發(fā)帖控制處理平臺,建立惡意發(fā)帖信息的追蹤和預(yù)警體系。系統(tǒng)運行穩(wěn)定正常,具有良好的實際價值。

參考文獻:

[1] 山秀明.互聯(lián)網(wǎng)復(fù)雜性研究進展[J].北京郵電大學(xué)學(xué)報, 2006,29 (1): 1-8.

[2] 謝新洲,肖雯.我國網(wǎng)絡(luò)信息傳播的輿論化趨勢及其所帶來的問題分析[J].情報理論與實踐,2006,29 (6) :645-649.

[3] Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù)[M].北京.機械工業(yè)出版社,2012.

篇10

關(guān)鍵詞:職位 找工作 推薦系統(tǒng) 微博 好友的公司

中圖分類號:TP391.3 文獻標(biāo)識碼:A 文章編號:1007-9416(2013)11-0123-04

1 引言

社交網(wǎng)絡(luò)(Social Networking Service)[1],指旨在幫助人們建立社會性的互聯(lián)網(wǎng)應(yīng)用服務(wù)或者網(wǎng)站平臺。在國內(nèi),緊隨國外社交網(wǎng)絡(luò)的節(jié)奏,誕生了人人網(wǎng),新浪微博,騰訊朋友網(wǎng)等用戶過億的社交網(wǎng)絡(luò),中國有3億人活躍在社交網(wǎng)絡(luò),預(yù)計未來兩年將達到5億人。中國正在成為世界上最大的社交網(wǎng)絡(luò)國家[2]。

當(dāng)前伴隨著社交網(wǎng)絡(luò)的流行,社交招聘[3]開始嶄露頭角,成為大部分企業(yè)和求職者的首選工具之一。僅在新浪微博,就活躍著超過5萬家企業(yè)。

數(shù)據(jù)顯示,2012年在美國的受訪公司中有超過五分之四的職位將通過社交網(wǎng)絡(luò)來招聘,職業(yè)社交網(wǎng)站Linkedln已經(jīng)取代報紙成為新職位的信息來源[4],73%的財富100強公司通過其進行人員招聘。據(jù)艾瑞咨詢調(diào)查數(shù)據(jù)顯示,比起傳統(tǒng)的簡歷招聘,職業(yè)社交網(wǎng)絡(luò)的招聘成功率更高,兩者比例大致為2:8[5]。

國內(nèi)網(wǎng)絡(luò)招聘的應(yīng)用面逐漸擴大,社交網(wǎng)站作為新興的網(wǎng)絡(luò)招聘方式正在興起。根據(jù)艾瑞咨詢報告顯示,2010年中國網(wǎng)絡(luò)招聘市場[6]規(guī)模逼近15億元,2011年三季度中國網(wǎng)絡(luò)招聘市場營收規(guī)模達5.9億元,同比增長32.7%,環(huán)比增長10.0%,較以往呈現(xiàn)出較快增長。微博作為一個新興社交媒介,僅在2010年,國內(nèi)微博訪問用戶規(guī)模已達到12521.7萬人。

而利用社交網(wǎng)絡(luò)求職,求職者面臨著兩大問題:

一是,活躍的企業(yè)及個人招聘者實時動態(tài)的招聘信息,對求職者來說信息過載,無法快速找到合適的職位。

二是,通過內(nèi)部推薦,求職者能更容易獲取匹配的職業(yè)機會。但目前用戶在社交網(wǎng)絡(luò)上通過自己的好友推薦工作機會[7]的流程復(fù)雜,需要先鎖定感興趣的職位,篩選出感興趣的公司,再從自己的好友中檢索與目標(biāo)公司,職位相關(guān)的好友進行聯(lián)系,非常繁復(fù)。

以上問題就是本文設(shè)計的推薦系統(tǒng)[8]試著解決的問題,設(shè)計一套基于求職者職業(yè)信息和求職者及其社交網(wǎng)絡(luò)好友之間的相關(guān)性來過濾社交網(wǎng)絡(luò)職位信息的系統(tǒng),它的意義在于:

根據(jù)求職者的社交網(wǎng)絡(luò)信息,簡歷,偏好,為求職者提供個性化推薦[9]來獲取更好相關(guān)性的工作機會。

根據(jù)求職者社交網(wǎng)絡(luò)好友所在的公司,向求職者推薦這些公司的工作機會,使求職者得到更符合自己圈子的工作機會。

2 項目功能介紹

2.1 搜索、訂閱、推送實時社交網(wǎng)絡(luò)職位

為解決當(dāng)前社交網(wǎng)絡(luò)信息過載,難以實時檢索出有效的職位相關(guān)信息,本文設(shè)計的系統(tǒng)首先設(shè)計爬蟲系統(tǒng), 并進行分詞判斷, 提取可能是職位的社交信息作為做一個社交化職位推薦系統(tǒng)的職位數(shù)據(jù)源,提供社交網(wǎng)絡(luò)職位的實時搜索,訂閱,推送。

2.2 利用社交關(guān)系挖掘來推薦職位

為用戶推薦自己社交網(wǎng)絡(luò)中的好友所在的公司正在招聘的職位是一種基于社交化的推薦(Social Recommendation[10]), 本文設(shè)計的推薦系統(tǒng)利用用戶現(xiàn)有的“新浪微博”好友關(guān)系,分析用戶的好友所在的公司分布,基于這個好友的公司的集合為用戶推薦相關(guān)社交網(wǎng)絡(luò)職位,提高職位與用戶的相關(guān)度。

3 基于社交關(guān)系的職位推薦系統(tǒng)的實現(xiàn)

基于社交關(guān)系的推薦需要基于用戶現(xiàn)有社交網(wǎng)絡(luò)的好友進行數(shù)據(jù)挖掘,那么選擇從什么社交網(wǎng)絡(luò)導(dǎo)入好友信息就非常重要,經(jīng)過我個人新浪微博賬號測試,我新浪微博上的互粉好友大概204人,其中填寫了職業(yè)信息的有70人,大概有30%左右;而人人和騰訊微博,豆瓣等社交網(wǎng)絡(luò)的已有職業(yè)信息還太少,Linkedin的國內(nèi)用戶數(shù)相對較少,所以首先導(dǎo)入新浪微博的好友能解決推薦的冷啟動問題,幫用戶挖掘出他的好友都在哪里工作,圖1為在系統(tǒng)有4萬條職位信息時,以我個人賬號數(shù)據(jù)為原型的基于好友公司職位推薦的職位情況:

3.1 微博職位信息的獲取

從社交網(wǎng)絡(luò)海量信息中獲取職位信息需要數(shù)據(jù)的采集,語義分析,判斷,我們首先選取了新浪微博作為數(shù)據(jù)源,通過一組特定的招聘領(lǐng)域常用詞匯,利用新浪微博API獲取匹配的微博作為源數(shù)據(jù)。下圖展示了通過新浪微博獲取微博職位信息的全過程,詳見實現(xiàn)細(xì)節(jié)如圖2:

3.1.1 分布式爬蟲

爬蟲是指自動化抓取信息的程序,在本系統(tǒng)中主要為了獲取新浪微博上的微博信息,供語義分析后提取系統(tǒng)所需的職位信息。

本文中的爬蟲程序基于Python[11]實現(xiàn),由于新浪微博api受限,單個爬蟲賬號一次只能采集500粉絲,歷史微博數(shù)據(jù)只能采集最新的200條,同時對IP也進行了限制,所以我們需要用多賬號分布式的方式來采集微博數(shù)據(jù)。

分布式爬蟲[12]采用主從結(jié)構(gòu),控制器和終端:(1)控制器控制(master)全部爬行器,負(fù)責(zé)爬蟲任務(wù)的調(diào)度,同步和終止命令。(2)終端(slave)負(fù)責(zé)信息的采集,將拓?fù)湫畔⒎答伩刂破鳌?/p>

3.1.2 中文分詞

為了能夠?qū)Σ杉降奈⒉?shù)據(jù)進行是否為職位的語義分析,首先要將微博分詞,這里我們采用了Jieba分詞引擎,下面對分詞用到的算法做一個簡單分析:

(1)基于Trie樹結(jié)構(gòu)實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG)。

(2)采用了動態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合。

(3)對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。

總結(jié)一下Jieba的分詞過程:加載字典,包括Jieba的詞典和我們手工錄入的領(lǐng)域信息詞典,包括公司中文名稱,職業(yè)名等,生成trie樹。?給定待分詞的句子,使用正則獲取連續(xù)的中文字符和英文字符,切分成短語列表,對每個短語使用DAG(查字典)和動態(tài)規(guī)劃,得到最大概率路徑,對DAG中那些沒有在字典中查到的字,組合成一個新的片段短語,使用HMM模型進行分詞,也就是作者說的識別新詞,即識別字典外的新詞。使用python的yield語法生成一個詞語生成器,逐詞語返回.當(dāng)然,我認(rèn)為直接返回list,效果也差不到哪里去。

通過Jieba,我們對所有采集到的微博信息進行全分詞,將分詞結(jié)果作為索引和微博信息一并存入數(shù)據(jù)庫,供職位判斷程序進行是否是職位的判斷,同時索引也為系統(tǒng)提供了搜索功能。

3.1.3 基于布爾邏輯的職位信息判斷

微博信息限定只有140字,而短文本自然語言的語義理解是非常困難的,所以我們采用了一個簡單的布爾邏輯判斷+人工審核的方法。

首先我們建立了兩個關(guān)鍵詞庫A和B:

A中加入職位可能包含的關(guān)鍵字,包括招聘關(guān)鍵字,職位名稱,技能名稱等;B中加入需要過濾的關(guān)鍵字,必如會引起混淆的詞語。

然后,對微博文本進行全模式分詞,配合我們已經(jīng)在上面說的加入自定義詞庫,將微博文本分詞為一個關(guān)鍵字集合。

最后,我們根據(jù)A和B對微博進行匹配:

If A and B:該微博非職位信息

If A and NOT B:該微博可能為職位信息

根據(jù)我們初期的數(shù)據(jù)量,每天采集1000條左右職位,固定時間進行人工審核能保證職位的質(zhì)量。同時此職位判斷程序的輸出接口固定,可以在之后的開發(fā)中替換為基于神經(jīng)網(wǎng)絡(luò)或決策樹的自動化判斷程序。

3.2 用戶的好友關(guān)系及其好友的職業(yè)信息的獲取

向用戶做社交化職位推薦需要用戶的好友關(guān)系,現(xiàn)在很多主流的社交平臺都已經(jīng)開放了自己的好友關(guān)系,作為我們職位數(shù)據(jù)源的新浪微博也開放了自己的好友關(guān)系,這為我們基于用戶好友公司向用戶推薦職位提供了數(shù)據(jù)支持。

要獲取用戶在新浪微博上的社交關(guān)系,首先我們需要經(jīng)過用戶身份驗證,新浪微博使用的是OAuth2.0[13]協(xié)議來鑒權(quán)。OAuth2.0的協(xié)議授權(quán)流程如下:其中Client指第三方應(yīng)用,Resource Owner指用戶,Authorization Server是我們的授權(quán)服務(wù)器,Resource Server是API服務(wù)器。

獲取用戶好友職業(yè)信息的流程:(1)用戶OAuth授權(quán)。(2)獲取用戶的互粉好友列表。(3)讀取用戶互粉好友的職業(yè)信息

3.3 職業(yè)信息中公司名的預(yù)處理

社交網(wǎng)絡(luò)大都未對用戶的職業(yè)信息進行校驗,所以會出現(xiàn)大量重復(fù)的公司或者公司的不同名稱,那么進行搜索和推薦的前提職業(yè)信息中公司名的預(yù)處理。

3.3.1 重復(fù)公司合并

按公司名搜索職位必須保證公司的獨一性,但從社交網(wǎng)絡(luò)采集來得公司名稱比較混亂,不能直接用于檢索,所以我們開發(fā)了工具合并所有收錄入系統(tǒng)的公司名。

3.3.2 為合并后的公司名添加別名

職位搜索引擎需要考慮用戶搜索公司或職位的習(xí)慣,用戶可能會用產(chǎn)品名稱或者團隊名稱搜索該產(chǎn)品團隊是否搜索職位,比如“百度人才”是百度的招聘產(chǎn)品,在我們將公司名稱合并后,為了盡量覆蓋我們搜索某一公司關(guān)鍵字時能夠?qū)⑼灰馑嫉脑~匯一并搜索,我們需要給公司名加上別名,比如將“百度人才”加為“百度”的別名,這樣用戶在搜索“百度”時我們會將“百度人才”的關(guān)鍵字一并返回,來給用戶提供更多的相關(guān)信息。

3.3.3 添加同義詞

當(dāng)用戶搜索公司時,會用一些中文簡寫,或者英文翻譯,比如淘寶網(wǎng)可以簡寫為“淘寶”或者翻譯為“Taobao”,這時這三個詞是同義的,我們會都轉(zhuǎn)換為“淘寶網(wǎng)”進行搜索,同時因為我們?yōu)椤疤詫毦W(wǎng)”加入大量的別名,可以保證用戶搜索出最為豐富的結(jié)果。

3.4 好友公司職位的匹配

在獲取用戶關(guān)系和用戶好友公司信息時,我們已經(jīng)獲得了一個用戶好友公司分布的集合,經(jīng)過公司名合并之后,獲取到了用戶真實的好友公司分布,用新的集合里的公司名依次搜索職位,將得到的職位集合返回,作為用戶好友公司的職位,過程圖解如下:

進過上述過程,我們可以獲取到系統(tǒng)中用戶好友所在的公司招聘的職位分別有哪些,以本人新浪微博賬號@Wangchao0721索引3個月以內(nèi)[14]的職位,得到的效果如下圖所示:

4 結(jié)論

本文中作者運用社交網(wǎng)絡(luò)數(shù)據(jù)采集和挖掘,利用用戶現(xiàn)有的社交網(wǎng)絡(luò)中的社交關(guān)系,構(gòu)建推薦系統(tǒng),為用戶推薦其好友所在的公司正在招聘的職位,并介紹了整個系統(tǒng)架構(gòu)的原理,從數(shù)據(jù)的采集,中文分詞的原理,職位的判斷,用戶所填的公司名的歸并,到最后好友公司職位的提煉。

現(xiàn)在社交網(wǎng)絡(luò)愈演愈烈,有大量潛在的求職者和招聘者沉淀了大量數(shù)據(jù),但國內(nèi)招聘領(lǐng)域并沒有很好的產(chǎn)品利用到這些數(shù)據(jù)。本文希望能夠通過推薦系統(tǒng)的方式,讓用戶擺脫千人一面的求職網(wǎng)站,做到基于社交關(guān)系的個人化推薦,同時給招聘行業(yè)提供一種技術(shù)解決方案,利用現(xiàn)有的公司員工推薦靠譜的求職者,能夠盡量降低人力在整個招聘過程中的比重,從而降低整個流程的成本問題。

參考文獻

[1]Louis Yu,Valerie King.The Evolution of Friendships in Chinese Online Social Networks.IEEE International Conference on Social Computing - SocialCom , pp. 81-87, 2010.

[2]Louis Yu,Valerie King.The Evolution of Friendships in Chinese Online Social Networks.IEEE International Conference on Social Computing - SocialCom , pp. 81-87, 2010.

[3]Digging social networks by mashups to support recruitment and selection functions in university student intake process.IEEE International Workshop on Business Applications of Social Network Analysis - BASNA ,2010.10.1109/BASNA.2010.5730303.

[4]李豫川.探析網(wǎng)絡(luò)招聘現(xiàn)狀.

[5]Knowing Me, Knowing You:A Case Study of Social Networking Sites and Participant Recruitment[J]Andrew L.Brooks Elizabeth F.Churchill.

[6]Xianbi Huang.FINDING NICHES:SOCIAL NETWORKS AND JOB SEARCH IN TRANSITIONAL CHINA.

[7]?;蹖?,徐辰雪.社交網(wǎng)站——人才招聘的新渠道.全國商情?理論研究,2011,(9).

[8]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué). 2009, 6(003): 1-10.

[9]劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學(xué)進展. 2009, 19(001): 1-15.

[10]J.Srivastava:Data mining for social network analysis. Intelligence and Security Informatics,2008.

[11]Magnus Lie Hetland . Python and the Web.

[12]王鳳紅.簡單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計與分析.中國現(xiàn)代教育裝備.2008.