卷積神經(jīng)網(wǎng)絡(luò)的方法范文
時(shí)間:2024-03-28 11:15:16
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的方法,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò) 人體行為識(shí)別 Dropout
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)04(c)-0028-02
該文采用隨機(jī)Dropout卷積神經(jīng)網(wǎng)絡(luò),筆者將此法的優(yōu)點(diǎn)大致概況為將繁瑣雜亂的前期圖像處理簡易化,原來的圖像不可以直接輸入,現(xiàn)在的原始圖像即可實(shí)現(xiàn)直輸功能,因其特性得到廣泛研究與應(yīng)用。另外,卷積神經(jīng)網(wǎng)絡(luò)在圖像的處理中能夠?qū)⒅付ǖ淖藙?shì)、陽光的照射反應(yīng)、遮避、平面移動(dòng)、縮小與放大等其他形式的扭曲達(dá)到魯棒性,從而達(dá)到良好的容錯(cuò)能力,進(jìn)而可以發(fā)現(xiàn)其在自適應(yīng)能力方面也非常強(qiáng)大。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在之前建立網(wǎng)絡(luò)模型時(shí),樣本庫為訓(xùn)練階段提供的樣本,數(shù)量有限,品質(zhì)上也很難滿足要求,致使網(wǎng)絡(luò)權(quán)值參數(shù)不能夠完成實(shí)時(shí)有效的調(diào)度與整理。
1 卷積神經(jīng)網(wǎng)絡(luò)
據(jù)調(diào)查卷積神經(jīng)網(wǎng)絡(luò)由K.Fukushima在80年代提出,那時(shí)候它被稱為神經(jīng)認(rèn)知機(jī),這一認(rèn)知成為當(dāng)時(shí)的第一個(gè)網(wǎng)絡(luò),后來網(wǎng)絡(luò)算法發(fā)生了規(guī)模性變革,由LeCun為代表提出了第一個(gè)手寫數(shù)字識(shí)別模型,并成功投入到商業(yè)用途中。LeNet被業(yè)界冠以卷積神經(jīng)網(wǎng)絡(luò)的代表模型,這類系統(tǒng)在很多方面都起到了不容小趨的作用,它多數(shù)應(yīng)用于各類不同的識(shí)別圖像及處理中,在這些層面上取得了重要成果。
筆者經(jīng)查閱資料發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)其實(shí)是由兩個(gè)種類組合而來,它們分別是特征提取、分類器,這種組成我們可以看到特征提取類可由一定數(shù)量的卷積層以及子采樣層相互重疊組合而成,全部都連接起來的1層或者2層神經(jīng)網(wǎng)絡(luò),就是由分類器來進(jìn)行安排的。卷積神經(jīng)網(wǎng)絡(luò)中的局部區(qū)域得到的感覺、權(quán)值的參數(shù)及子采樣等可以說是重要網(wǎng)絡(luò)結(jié)構(gòu)特征。
1.1 基本CNN網(wǎng)絡(luò)結(jié)構(gòu)
圖1中就是最為經(jīng)典的LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)圖。通過圖1中我們可以獲悉,該模型有輸入輸出層,除這兩層外還有6層,其征提取可在前4層中體現(xiàn),后兩層體現(xiàn)的是分類器。
在特征提取部分,6個(gè)卷積核通過卷積,是圖像經(jīng)尺寸為32×32的輸入而得見表1,運(yùn)算過程如式(1):
(1)
式中:卷積后的圖像與一個(gè)偏置組合起來,使函數(shù)得到激活,因此特征圖變誕生了,通過輸出得到了6個(gè)尺寸的特征圖,這6個(gè)尺寸均為28×28,近而得到了第一層的卷積,以下筆者把它簡要稱為c1;那么c1層中的6個(gè)同尺寸圖再經(jīng)由下面的子采樣2×2尺寸,再演變成特征圖,數(shù)量還是6個(gè),尺寸卻變成了14×14,具體運(yùn)算如公式(2):
通過表2我們可以使xi生成的和與采樣系數(shù)0.25相乘,那么采樣層的生成也就是由加上了一個(gè)偏置,從而使函數(shù)被激活形成了采樣層的第1個(gè)層次,以下我們簡要稱為s1;這種過程我們可反復(fù)運(yùn)用,從而呈現(xiàn)出卷積層中的第2層,可以簡要稱之為c2,第2層簡稱s2;到目前為止,我們對(duì)特征的提取告一段落。
神經(jīng)網(wǎng)絡(luò)的識(shí)別,我們可以看到它是由激活函數(shù)而形成的一個(gè)狀態(tài),這一狀態(tài)是由每個(gè)單元的輸出而得;那么分類器在這里起到的作用是將卷積層全部連接起來,這種通過連接而使1層與上面1層所有特征圖進(jìn)行了串連,簡要稱之為c5;因而2層得到了退變與簡化效應(yīng),從而使該神經(jīng)網(wǎng)絡(luò)成為經(jīng)典,簡要稱之為F6,向量及權(quán)值是由F6 輸送,然后由點(diǎn)積加上偏置得到結(jié)果的有效判定。
1.2 改進(jìn)的隨機(jī)DropoutCNN網(wǎng)絡(luò)
1.2.1 基本Dropout方法
神經(jīng)網(wǎng)絡(luò)泛化能力能夠得到提升,是基于Dropout方法的深入學(xué)習(xí)。固定關(guān)系中存在著節(jié)點(diǎn)的隱含,為使權(quán)值不再依附于這種關(guān)系,上述方法可隨機(jī)提取部分神經(jīng)元,這一特性是通過利用Dropout在網(wǎng)絡(luò)訓(xùn)練階段中隨機(jī)性而得,對(duì)于取值能夠有效的存儲(chǔ)及保護(hù)存留,這一特性在輸出設(shè)定方面一定要注重為0,這些被選擇的神經(jīng)元隨然這次被抽中應(yīng)用,但并不影響下次訓(xùn)練的過程,并具還可以恢復(fù)之前保留的取值,那么每兩個(gè)神經(jīng)元同時(shí)產(chǎn)生作用的規(guī)避,可以通過重復(fù)下次隨機(jī)選擇部分神經(jīng)元的過程來解決;我們通過這種方法,使網(wǎng)絡(luò)結(jié)構(gòu)在每次訓(xùn)練階段中都能呈現(xiàn)不同變化,使一些受限制的特征,不再受到干擾,使其真正能展現(xiàn)自身的優(yōu)點(diǎn),在基于Dropout方法中,我們可以將一些神經(jīng)元的一半設(shè)為0來進(jìn)行輸出,隨機(jī)神經(jīng)元的百分比可控制在50%,有效的避免了特征的過度相似與穩(wěn)合。
1.2.2 隨機(jī)Dropout方法
Dropout方法就是隨機(jī)輸出為0的設(shè)定,它將一定比例神經(jīng)元作為決定的因素,其定義網(wǎng)絡(luò)在構(gòu)建模型時(shí)得到廣泛采用。神經(jīng)元基于隨機(jī)Dropout的方法是該文的重要網(wǎng)絡(luò)輸出途徑,通過設(shè)定輸出為0,使其在網(wǎng)絡(luò)中得到變。圖2是隨機(jī)Dropout的加入神經(jīng)元連接示意圖,其在圖中可知兩類神經(jīng)元:一類是分類器的神經(jīng)元,這一階段的神經(jīng)元可分榱講悖渙硪煥嗌窬元是由輸出而形成的層次。模型在首次訓(xùn)練的階段會(huì)使神經(jīng)元隨機(jī)形成凍結(jié)狀態(tài),這一狀態(tài)所占的百分比為40%、60%,我們還可以看到30%及50%的神經(jīng)元可能在網(wǎng)絡(luò)隨機(jī)被凍結(jié),那么這次凍結(jié)可以發(fā)生在模型第二次訓(xùn)練,那么第三次神經(jīng)元的凍結(jié)可從圖示中得出70%及40%,還可以通過變化用人工設(shè)置,其范圍值宜為35%~65%,那么網(wǎng)絡(luò)神經(jīng)元連接次序的多樣化,也因此更為突出與精進(jìn),網(wǎng)絡(luò)模型的泛化能力也得到了跨越勢(shì)的提高。
2 實(shí)驗(yàn)及結(jié)果分析
2.1 實(shí)驗(yàn)方法
卷積神經(jīng)網(wǎng)絡(luò)通過實(shí)驗(yàn),通過輸入層呈現(xiàn)一灰色圖像,該圖像尺寸被設(shè)定成28×28的PNG格式,這里我們以圖像框架圖得到雙線性差值,用來處理圖像及原視頻中的影像,將框架圖的卷積核設(shè)定為5×5的尺寸,子采樣系數(shù)控制值為0.25,采用SGD迭代200次,樣本數(shù)量50個(gè)進(jìn)行設(shè)定,一次誤差反向傳播實(shí)現(xiàn)批量處理,進(jìn)行權(quán)值調(diào)整。實(shí)驗(yàn)采用交叉驗(yàn)證留一法,前四層為特征提取層,C1-S1-C2-S2按順序排列,6-6-12-12個(gè)數(shù)是相應(yīng)特征,通過下階段加入隨機(jī)Dropout,這階段為雙層也就是兩層,進(jìn)行連接,連接層為全體,從而可知結(jié)果由分類得出,又從輸出層輸出。
2.2 實(shí)驗(yàn)結(jié)果分析
識(shí)別錯(cuò)誤率可通過卷積神經(jīng)網(wǎng)絡(luò)模型,及訓(xùn)練過程與檢測(cè)過程中可查看到的。在訓(xùn)練階段中,我們可以將Dropout的網(wǎng)絡(luò)中融入200次訓(xùn)練,在將沒有使用該方法的網(wǎng)絡(luò)進(jìn)行相互比較分析,我可以得知,后者訓(xùn)練時(shí)的識(shí)別錯(cuò)誤率稍高于前者,前者與后的相比較所得的差異不是很大,進(jìn)而我們可知使用Dropout方法,對(duì)卷積神經(jīng)網(wǎng)絡(luò)在泛化能力上得到有效的提升,從而有效的防止擬合。
3 結(jié)語
筆者基于Dropout卷積神經(jīng)網(wǎng)絡(luò),人體行為識(shí)別在視頻中進(jìn)行, 通過Weizmann數(shù)據(jù)集檢測(cè)實(shí)驗(yàn)結(jié)果,隨機(jī)Dropout在分類器中加入。通過實(shí)驗(yàn)可以得知:隨機(jī)Dropout的加入,使卷積神經(jīng)構(gòu)建了完美網(wǎng)絡(luò)模型,并且使其在人體行為識(shí)別中的效率贏得了大幅度的提升,近而使泛化能力可以通過此類方法得到提高,可以防止擬合。
參考文獻(xiàn)
[1] 其它計(jì)算機(jī)理論與技術(shù)[J].電子科技文摘,2002(6).
篇2
關(guān)鍵詞關(guān)鍵詞:人臉識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);圖像識(shí)別;深度學(xué)習(xí);模式識(shí)別
DOIDOI:10.11907/rjdk.171043
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005018603
0引言
人臉識(shí)別是近年來模式識(shí)別、圖像處理、機(jī)器視覺、神經(jīng)網(wǎng)絡(luò)及認(rèn)知科學(xué)領(lǐng)域的研究熱點(diǎn)[12]。所謂人臉識(shí)別,是指給定一個(gè)靜態(tài)人臉圖像或動(dòng)態(tài)視頻,利用存儲(chǔ)有若干已知身份的人臉數(shù)據(jù)庫驗(yàn)證單個(gè)或多個(gè)人的身份[1]。作為生物特征識(shí)別的一個(gè)重要方面,人臉識(shí)別有著廣泛的應(yīng)用場(chǎng)景,如:檔案管理系統(tǒng)、公安系統(tǒng)的犯罪身份識(shí)別、銀行和海關(guān)的監(jiān)控、安全驗(yàn)證系統(tǒng)、信用卡驗(yàn)證等領(lǐng)域。在人臉識(shí)別巨大魅力的影響下,國內(nèi)互聯(lián)網(wǎng)公司也開始了人臉識(shí)別應(yīng)用的探索,如百度推出的人臉考勤系統(tǒng)、阿里支付寶的刷臉登錄等功能都是人臉識(shí)別的具體應(yīng)用。目前,人臉識(shí)別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區(qū)別分析,Belhumeur 等[4]提出了Fisherface方法;基于統(tǒng)計(jì)理論,劍橋大學(xué)的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過多級(jí)自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)[6]與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行人臉識(shí)別。上述方法雖然獲得了良好的識(shí)別正確率,但需要人工參與特征提取,然后將提取的特征送入分類器進(jìn)行識(shí)別,過程較為復(fù)雜。
卷積神經(jīng)網(wǎng)絡(luò)[79]是近年發(fā)展起來,并引起廣泛重視的一種高效深度學(xué)習(xí)識(shí)別算法,其已成為當(dāng)前語音分析和圖像處理領(lǐng)域的研究熱點(diǎn)。相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享、局部感知的優(yōu)點(diǎn)。局部感知的網(wǎng)絡(luò)結(jié)構(gòu)使其更接近于生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享大大減少了模型學(xué)習(xí)參數(shù)的個(gè)數(shù),同時(shí)降低了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性。在圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)體現(xiàn)得更為突出,多維的圖像數(shù)據(jù)可以直接作為網(wǎng)絡(luò)的輸入,特征提取和分類均集成在網(wǎng)絡(luò)中,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和訓(xùn)練分類器過程。除此之外,卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像中的位移、比例縮放、旋轉(zhuǎn)、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統(tǒng)人臉識(shí)別算法特征提取和訓(xùn)練分類器困難的問題,本文借鑒Lenet-5[10]的結(jié)構(gòu),設(shè)計(jì)一個(gè)適合ORL數(shù)據(jù)集人臉識(shí)別任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
1卷積神經(jīng)網(wǎng)絡(luò)
1.1用于ORL人臉識(shí)別的CNN
本文提出的7層卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、2個(gè)卷積層、2個(gè)降采樣層、一個(gè)全連接層和一個(gè)Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區(qū)域的大小為2×2,采用Average Pooling(相鄰小區(qū)域之間無重疊),激活函數(shù)均采用Sigmoid函數(shù)。每一個(gè)卷積層或降采樣層由多個(gè)特征圖組成,每個(gè)特征圖有多個(gè)神經(jīng)元,上層的輸出作為下一層的輸入。此外,本文實(shí)驗(yàn)學(xué)習(xí)率的取值為常數(shù)1.5,該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2卷積層
卷積神經(jīng)網(wǎng)絡(luò)中的卷積層一般稱C層[11](特征提取層)。卷積層的輸入來源于輸入層或者采樣層。卷積層中的每一個(gè)特征圖都對(duì)應(yīng)一個(gè)大小相同的卷積核,卷積層的每一個(gè)特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對(duì)應(yīng)元素累加后加一個(gè)偏置,最后通過激活函數(shù)得到。假設(shè)第l層榫砘層,則該層中第j個(gè)特征圖的計(jì)算表達(dá)式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
這里的Mj表示選擇的上一層輸出特征圖的集合。
1.3降采樣層
降采樣層是對(duì)上一層的特征圖進(jìn)行下采樣處理,處理方式是在每一個(gè)特征圖內(nèi)部的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì)。常見的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區(qū)域內(nèi)像素的平均值,而Max Pooling是取小區(qū)域內(nèi)像素的最大值。降采樣層只是對(duì)輸入的特征圖進(jìn)行降維處理,不改變特征圖的個(gè)數(shù)。假設(shè)down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個(gè)特征圖的計(jì)算表達(dá)式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4輸出層
卷積神經(jīng)網(wǎng)絡(luò)的輸出層一般為分類器層,常用的有徑向基(RBF)函數(shù)輸出單元、Sigmoid輸出單元和Softmax回歸分類器。在ORL人臉識(shí)別任務(wù)中,采用Sigmoid函數(shù)輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數(shù),每一個(gè)單元輸出值是0-1范圍內(nèi)的一個(gè)正數(shù),代表該樣本屬于該單元對(duì)應(yīng)類別的概率。數(shù)值最大的那個(gè)單元即為樣本的預(yù)測(cè)類別。假設(shè)x為全連接層的輸出,則輸出層輸出結(jié)果的計(jì)算表達(dá)式如下:
y=f(wTx+b)(3)
其中,f表示激活函數(shù),這里采用Sigmoid函數(shù),Sigmoid函數(shù)表達(dá)式如下:
f(x)=11+e-x(4)
2實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)在Windows7 64位下的Matlab 2014a中進(jìn)行,采用Matlab深度學(xué)習(xí)工具箱DeepLearnToolbox。PC的內(nèi)存8G,CPU主頻為3.2GHZ。
ORL人臉數(shù)據(jù)集是在1992年至1994年之間由AT &T Cambridge實(shí)驗(yàn)室拍攝的人臉圖像所構(gòu)成。數(shù)據(jù)集中包含40個(gè)不同人物的臉部圖像,每個(gè)人物包含10張圖像,總共400張。每個(gè)類別中的臉部圖像在不同的時(shí)間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開狀態(tài),面部是否帶有微笑的表情等;③一些面部細(xì)節(jié)上的差異,如是否佩戴眼鏡等。該數(shù)據(jù)集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。
圖2為ORL數(shù)據(jù)集中部分人臉圖像。數(shù)據(jù)集中每個(gè)原始圖像大小為92*112像素,本文實(shí)驗(yàn)中對(duì)這些圖像進(jìn)行預(yù)處理,使每一幅圖像的尺寸調(diào)整為28*28,并對(duì)每一副圖像進(jìn)行歸一化處理,這里采用簡單的除255的方式。隨機(jī)選取每一個(gè)類別的8張圖像作為訓(xùn)練樣本,剩下的2張作為測(cè)試樣本。因此,訓(xùn)練集有320個(gè)樣本,測(cè)試集有80個(gè)樣本。
2.1改變C3層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)的影響
卷積神經(jīng)網(wǎng)絡(luò)性能的好壞與卷積層卷積核的個(gè)數(shù)密切相關(guān),但每一個(gè)卷積層應(yīng)該設(shè)置多少個(gè)卷積濾波器,目前并沒有數(shù)學(xué)理論指導(dǎo)。為了研究卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)最終識(shí)別準(zhǔn)確率的影響,本文保持C1層卷積核個(gè)數(shù)不變,通過改變C3層卷積核的個(gè)數(shù),形成新的網(wǎng)絡(luò)結(jié)構(gòu),用訓(xùn)練集訓(xùn)練網(wǎng)絡(luò),訓(xùn)練迭代次數(shù)均為60次,然后用測(cè)試集對(duì)每一種網(wǎng)絡(luò)結(jié)構(gòu)的性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,當(dāng)C3層有10個(gè)卷積核時(shí),網(wǎng)絡(luò)模型對(duì)測(cè)試集的識(shí)別正確率最高。卷積核的個(gè)數(shù)與識(shí)別準(zhǔn)確率并不成正比關(guān)系,當(dāng)卷積核個(gè)數(shù)過多時(shí),網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率會(huì)下降,這是因?yàn)樵诰矸e核個(gè)數(shù)增加的同時(shí),需要學(xué)習(xí)的參數(shù)也隨之增加,而數(shù)據(jù)集中訓(xùn)練樣本的規(guī)模較小,已不能滿足學(xué)習(xí)的要求。
2.2改變C1層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)的影響
由上述實(shí)驗(yàn)結(jié)果可知,C3層卷積核個(gè)數(shù)為10時(shí),網(wǎng)絡(luò)識(shí)別效果最好。因此,為了研究卷積層C1層卷積核個(gè)數(shù)對(duì)識(shí)別準(zhǔn)確率的影響, C3層保留10個(gè)卷積核,改變C1層卷積核的個(gè)數(shù)構(gòu)造新的網(wǎng)絡(luò)結(jié)構(gòu),用測(cè)試集針對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)就測(cè)試集和訓(xùn)練集的識(shí)別準(zhǔn)確率進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表2所示。
從表2的實(shí)驗(yàn)結(jié)果可以得到相同結(jié)論:卷積層卷積核的個(gè)數(shù)并非越多越好,卷積核個(gè)數(shù)過多,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)也隨之增加,當(dāng)訓(xùn)練集中樣本個(gè)數(shù)無法滿足學(xué)習(xí)需要時(shí),網(wǎng)絡(luò)識(shí)別準(zhǔn)確率就會(huì)下降。
2.3與其它算法比較
為進(jìn)一步說明本文所提卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的有效性和優(yōu)越性,將該結(jié)構(gòu)(C1層6個(gè)卷積核,C3層10個(gè)卷積核,學(xué)習(xí)率1.5)的實(shí)驗(yàn)結(jié)果與其它識(shí)別方法在ORL數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,結(jié)果如表3所示。可以看出,本文所提方法比Eigface、ICA的識(shí)別效果好,與2DPCA方法的識(shí)別準(zhǔn)確率一樣,比FisherFace方法的識(shí)別準(zhǔn)確率只低了0.20%,這進(jìn)一步證實(shí)了本文所提網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
3結(jié)語
本文在理解Lenet-5結(jié)構(gòu)的基礎(chǔ)上,提出一種適用于ORL人臉數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不僅避免了復(fù)雜的顯式特征提取過程,在ORL數(shù)據(jù)集上獲得98.30%的識(shí)別正確率,而且比大多數(shù)傳統(tǒng)人臉識(shí)別算法的效果都好。此外,本文還通過大量驗(yàn)就每個(gè)卷積層卷積核個(gè)數(shù)對(duì)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的影響進(jìn)行了詳細(xì)研究與分析,這對(duì)設(shè)計(jì)CNN網(wǎng)絡(luò)結(jié)構(gòu)具有一定的參考意義。
參考文獻(xiàn)參考文獻(xiàn):
[1]李武軍,王崇駿,張煒,等.人臉識(shí)別研究綜述[J].模式識(shí)別與人工智能,2006,19(1):5866.
[2]張翠平,蘇光大.人臉識(shí)別技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吳學(xué)毅,劉文峰.人臉識(shí)別綜述與展望[J].計(jì)算機(jī)與信息技術(shù),2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陳耀丹,王連明.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J].東北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,48(2):7076.
[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2016,36(1):1622.
[9]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
篇3
>> 基于PCA—LDA與蟻群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別算法 基于粒子群算法和神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別分類器研究 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究 基于PCA算法的人臉識(shí)別技術(shù)研究 基于改進(jìn)PCA算法的人臉識(shí)別研究 基于MB_LBP和PCA算法的人臉識(shí)別研究 基于BP神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別算法的實(shí)現(xiàn) 基于模糊混沌神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別算法 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別 基于子圖分割和BP神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法 基于EMPCA和RBF神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別 基于改進(jìn)PCA與FLD算法的人臉識(shí)別 基于模糊人工神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究 基于改進(jìn)的LBP和PCA算法的人臉識(shí)別 基于并行PCA算法的人臉識(shí)別系統(tǒng)的研究 基于PCA和SVM的人臉識(shí)別 基于PCA和FLD的人臉識(shí)別方法 基于快速PCA―SVM的人臉識(shí)別研究 基于主分量分析的BP神經(jīng)網(wǎng)絡(luò)人臉圖像識(shí)別算法 常見問題解答 當(dāng)前所在位置:l.
[6]劉學(xué)勝.基于PCA和SVM算法的人臉識(shí)別[J].計(jì)算機(jī)與數(shù)字工程,2011(7).
[7]廖海濱,陳慶虎. 基于因子分析的實(shí)用人臉識(shí)別研究[J].電子與信息學(xué)報(bào),2011(7).
[8]蔡曉曦,陳定方.特征臉及其改進(jìn)方法在人臉識(shí)別中的比較研究[J].計(jì)算機(jī)與數(shù)字工程,2007(4).
篇4
關(guān)鍵詞 深度神經(jīng)網(wǎng)絡(luò) 圖像分類 車型識(shí)別 預(yù)測(cè)
中圖分類號(hào):TP317.4 文獻(xiàn)標(biāo)識(shí)碼:A
0 引言
所謂的深度學(xué)習(xí)是根據(jù)具有多層結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)所提出。在具體的深度學(xué)習(xí)中,主要借助模擬神經(jīng)系統(tǒng)中的層次結(jié)構(gòu),來進(jìn)行數(shù)據(jù)結(jié)構(gòu)特征的反映,一般來說,細(xì)節(jié)用低層次進(jìn)行表示,抽象數(shù)據(jù)結(jié)構(gòu)則用高層次來表示,利用這種方式,能夠進(jìn)行數(shù)據(jù)挖掘?qū)W習(xí),滿足學(xué)習(xí)要求。在傳統(tǒng)的車型識(shí)別發(fā)展中,主要涉及到的技術(shù)包括模式識(shí)別、特征選擇和提取以及檢測(cè)分割等方面內(nèi)容,在技術(shù)發(fā)展中,存在的難點(diǎn)主要涉及到如何將完整的目標(biāo)車輛區(qū)域進(jìn)行分割,這是項(xiàng)基礎(chǔ)工作,也是難點(diǎn)所在。這結(jié)合實(shí)際需求,對(duì)于不同拍攝角度下的汽車圖片,包括皮卡車、SUV、面包車以及小轎車進(jìn)行車型識(shí)別,其目標(biāo)質(zhì)量分割質(zhì)量則是最為關(guān)鍵的技術(shù),直接影響到最后的判斷效果。所以,應(yīng)該重視進(jìn)行具有代表性特征的選擇處理,并相應(yīng)轉(zhuǎn)化成有效的參數(shù)過程。在獲取特征參數(shù)后,則應(yīng)該結(jié)合項(xiàng)目要求來選擇合理的分類器,這樣才能保障識(shí)別的準(zhǔn)確率。結(jié)合汽車車型識(shí)別問題的要求,這里網(wǎng)絡(luò)輸入則是原始圖像,利用神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì),原始數(shù)據(jù)經(jīng)過卷積層、完全連接層以及Softmax 層的培訓(xùn)學(xué)習(xí),通過這種深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行分析處理,免于上述存在難度的圖像分割、手工提取等過程。
1數(shù)據(jù)集
這里的車型識(shí)別目標(biāo)的數(shù)據(jù)集主要包括皮卡車、SUV、面包車以及小轎車等四種類型。其中,訓(xùn)練集和測(cè)試集分別包括1025張和368張?jiān)紙D片。此數(shù)據(jù)集中,包括不同攝像角度中的汽車圖像照片,具有背景復(fù)雜、圖像大小不統(tǒng)一,車輛在圖片中所占比例具有較大差異性等方面問題,這些都在一定程度上造成車型識(shí)別的難度上升。
在預(yù)處理中,為了保證網(wǎng)絡(luò)輸入的一致性,對(duì)于原始圖像進(jìn)行調(diào)整處理為256?56?尺寸。在此基礎(chǔ)上,對(duì)于圖像RGB三個(gè)通道的均值進(jìn)行計(jì)算,并進(jìn)行均值標(biāo)準(zhǔn)化的處理。在具體的網(wǎng)絡(luò)訓(xùn)練測(cè)試的過程中,主要?jiǎng)t是選取224?24? 的樣本作為輸入。
2網(wǎng)絡(luò)結(jié)構(gòu)探討
結(jié)合文獻(xiàn)所提出的深度神經(jīng)網(wǎng)絡(luò)VGG16的優(yōu)勢(shì),我們將其應(yīng)用在汽車車型識(shí)別問題中。VGG16網(wǎng)絡(luò)具有較強(qiáng)的優(yōu)勢(shì),主要包括5個(gè)堆棧式的卷積神經(jīng)網(wǎng)絡(luò)ConvNet,以及3個(gè)完全連接層以及1個(gè)Softmax層,由此可見,其屬于“網(wǎng)絡(luò)中的網(wǎng)絡(luò)”架構(gòu)。在每個(gè)每個(gè)ConvNet中,還有多個(gè)卷積層所構(gòu)成,然后緊跟隨著Max-Pooling層。在進(jìn)行卷積以及池化處理的基礎(chǔ)上,進(jìn)行三層完全連接處理,同時(shí),Softmax層的輸入則是最后一個(gè)完全連接曾的輸出,在這基礎(chǔ)上,實(shí)現(xiàn)車型分類的要求。結(jié)合實(shí)際需求,將非線性的ReLU層加入該網(wǎng)絡(luò)中,這樣就會(huì)讓ReLU來處理卷積層和完全連接層的輸出,保證訓(xùn)練時(shí)間有效降低。另外,還將一種正則化Dropout方式應(yīng)用在網(wǎng)絡(luò)中,避免出現(xiàn)完全連接層中的過擬合問題。
另一個(gè)神經(jīng)網(wǎng)絡(luò)Alexnet,結(jié)構(gòu)稍微簡單一些,主要包括5卷積層、3個(gè)完全連接層、Softmax層等幾部分,在進(jìn)行部分卷積層處理后,在進(jìn)行Max- Pooling層處理。在此網(wǎng)絡(luò)中,同樣采用非線性的ReLU層,所采用難度重疊池化方式,也能有效保證盡量降低過擬合的問題。
3實(shí)驗(yàn)結(jié)果分析
結(jié)合上述分析的深度神經(jīng)網(wǎng)絡(luò)VGG16和AlexNet的基礎(chǔ)上,進(jìn)行Gaffe框架的搭設(shè),為了保證運(yùn)算效率,建立在GeForce GTX TITAN X CPU的工作站中。經(jīng)過統(tǒng)計(jì),單一網(wǎng)路訓(xùn)練大約為2小時(shí),一張圖片測(cè)試大約為0.2秒。在應(yīng)用上述網(wǎng)絡(luò)測(cè)試、訓(xùn)練之外,在分類過程中,還應(yīng)用了經(jīng)典的分類算法KNN。經(jīng)過實(shí)驗(yàn)分析,可以看出,VGG16網(wǎng)絡(luò)能夠具有比較好的分類結(jié)果,能夠?qū)崿F(xiàn)準(zhǔn)確率為97.3%,而AlexNet網(wǎng)絡(luò)準(zhǔn)確率達(dá)到為93.0%,KNN算法不能有效處理較為復(fù)雜背景的圖片,分類準(zhǔn)確率僅為52.3%。在具體的案例中,分析VGG16網(wǎng)絡(luò)錯(cuò)誤分類的情況,面包車具有完全正確的分類效果。在錯(cuò)誤分類的SUV車型中,究其原因,主要包括:車顏色有兩部分組成,紅色部分則和皮卡車車型相同;車型結(jié)構(gòu)太類似于皮卡車;背景中加入其他車型,這樣會(huì)造成分類結(jié)果不準(zhǔn)確。如果圖片中僅僅包括車頭的情況,在進(jìn)行車型識(shí)別中也存在較大的難度,不同車型從前面角度進(jìn)行觀察,并沒有太大的差異化,這點(diǎn)應(yīng)該明確指出。
4結(jié)語
這里采用深度學(xué)習(xí)方法,結(jié)合先進(jìn)的深度神經(jīng)網(wǎng)絡(luò),以及功能強(qiáng)大的計(jì)算機(jī)工作站,對(duì)于四類汽車進(jìn)行識(shí)別實(shí)驗(yàn)研究。經(jīng)過試驗(yàn)表明,VGG16網(wǎng)絡(luò)具有最好的分類效果,傳統(tǒng)的經(jīng)典分類算法往往僅為其準(zhǔn)確率的一半左右。所以,可以看出深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)能力,能夠在圖像分類問題中表現(xiàn)出很大優(yōu)勢(shì),應(yīng)該不斷優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以便其適用于更多的圖像分類要求。
參考文獻(xiàn)
[1] Hinton G E, Osindero S, Teh Y W.A Fast Learning Algorithm For Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527-1554.
篇5
內(nèi)容簡介:騰訊的月活躍用戶8.3億
微信月活躍用戶4.4億
QQ空間月活躍用戶6.5億
游戲月活躍用戶過億
如今騰訊的數(shù)據(jù)分析已經(jīng)能做到始終“不落地”,即全部的實(shí)時(shí)處理。騰訊大數(shù)據(jù)平臺(tái)有如下核心模塊:TDW、TRC、TDBank、TPR和Gaia。簡單來說,TDW用來做批量的離線計(jì)算,TRC負(fù)責(zé)做流式的實(shí)時(shí)計(jì)算,TPR負(fù)責(zé)精準(zhǔn)推薦,TDBank則作為統(tǒng)一的數(shù)據(jù)采集入口,而底層的Gaia則負(fù)責(zé)整個(gè)集群的資源調(diào)度和管理。李勇還特別強(qiáng)調(diào)了數(shù)據(jù)平臺(tái)體系化是應(yīng)用基礎(chǔ),數(shù)據(jù)應(yīng)用商業(yè)化是價(jià)值導(dǎo)向。
數(shù)據(jù)平臺(tái)體系化是應(yīng)用基礎(chǔ),數(shù)據(jù)應(yīng)用商業(yè)化是價(jià)值導(dǎo)向。
騰訊深度學(xué)習(xí)平臺(tái)的挑戰(zhàn)深度神經(jīng)網(wǎng)絡(luò)模型復(fù)雜,訓(xùn)練數(shù)據(jù)多,計(jì)算量大
模型復(fù)雜:人腦有100多億個(gè)神經(jīng)細(xì)胞,因此DNN的神經(jīng)元和權(quán)重多
訓(xùn)練數(shù)據(jù)多:大量訓(xùn)練數(shù)據(jù)才能訓(xùn)練出復(fù)雜模型
微信語音識(shí)別:數(shù)萬個(gè)神經(jīng)元,超過50,000,000參數(shù),超過4,000,000,000樣本,單機(jī)訓(xùn)練耗時(shí)以年計(jì),流行的GPU卡需數(shù)周
深度神經(jīng)網(wǎng)絡(luò)需要支持大模型
更深更寬的網(wǎng)絡(luò)能獲得更好的結(jié)果
以圖像識(shí)別為例,增加卷積層的filter數(shù)量,加大模型深度等,可獲得更好的模型質(zhì)量
深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中超參數(shù)多,需要反復(fù)多次實(shí)驗(yàn)
非線性模型:代價(jià)函數(shù)非凸,容易收斂到局部最優(yōu)解
敏感的超參數(shù):模型結(jié)構(gòu)、輸入數(shù)據(jù)處理方式、權(quán)重初始化方案、參數(shù)配置、激活函數(shù)選擇、權(quán)重優(yōu)化方法等
數(shù)學(xué)基礎(chǔ)研究稍顯不足,倚重技巧和經(jīng)驗(yàn)
騰訊深度學(xué)習(xí)平臺(tái)Mariana
騰訊有廣泛的深度學(xué)習(xí)應(yīng)用需求,其挑戰(zhàn)如下模型復(fù)雜,訓(xùn)練數(shù)據(jù)多,計(jì)算量大
需要支持大模型
訓(xùn)練中超參數(shù)多,需要反復(fù)多次實(shí)驗(yàn)
Mariana騰訊深度學(xué)習(xí)平臺(tái)提供三個(gè)框架解決上述問題
Mariana DNN: 深度神經(jīng)網(wǎng)絡(luò)的GPU數(shù)據(jù)并行框架
Mariana CNN: 深度卷積神經(jīng)網(wǎng)絡(luò)的GPU數(shù)據(jù)并行和模型并行框架
Mariana Cluster: 深度神經(jīng)網(wǎng)絡(luò)的CPU集群框架
Mariana已支持了訓(xùn)練加速、大模型和方便的訓(xùn)練作業(yè)
微信語音識(shí)別6 GPU做到4.6倍加速比
微信圖像識(shí)別4 GPU做到2.5倍加速比,并支持大模型
篇6
【關(guān)鍵詞】人工智能 圖像識(shí)別 深度學(xué)習(xí)
1 概述
圖像識(shí)別技術(shù)是人工智能研究的一個(gè)重要分支,其是以圖像為基礎(chǔ),利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別不同模式的對(duì)象的技術(shù)。目前圖像識(shí)別技術(shù)的應(yīng)用十分廣泛,在安全領(lǐng)域,有人臉識(shí)別,指紋識(shí)別等;在軍事領(lǐng)域,有地形勘察,飛行物識(shí)別等;在交通領(lǐng)域,有交通標(biāo)志識(shí)別、車牌號(hào)識(shí)別等。圖像識(shí)別技術(shù)的研究是更高級(jí)的圖像理解、機(jī)器人、無人駕駛等技術(shù)的重要基礎(chǔ)。
傳統(tǒng)圖像識(shí)別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計(jì)等步驟構(gòu)成。通過專家設(shè)計(jì)、提取出圖像特征,對(duì)圖像M行識(shí)別、分類。近年來深度學(xué)習(xí)的發(fā)展,大大提高了圖像識(shí)別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識(shí)(特征),自動(dòng)完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識(shí)別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識(shí)別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識(shí)別技術(shù)
傳統(tǒng)的圖像識(shí)別技術(shù)包括:圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后,需要先對(duì)圖像進(jìn)行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像,如果每個(gè)像素的像素值用一個(gè)字節(jié)表示,灰度值級(jí)數(shù)就等于256級(jí),每個(gè)像素可以是0~255之間的任何一個(gè)整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲(chǔ)空間。通常我們需要將圖片的亮度及對(duì)比度調(diào)整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對(duì)圖片的噪聲進(jìn)行消除。對(duì)圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時(shí)候,我們需要對(duì)圖像細(xì)化處理(如指紋細(xì)化,字符細(xì)化等),以便獲取主要信息,減少無關(guān)信息。細(xì)化操作,可以得到由單像素點(diǎn)組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點(diǎn)等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點(diǎn)。另一類在頻域中進(jìn)行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級(jí)變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預(yù)處理和特征提取之后,我們便能夠?qū)D像進(jìn)行識(shí)別、分類。常用的分類器有K-近鄰(KNN),支持向量機(jī)(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等等。K-近鄰算法原理是,當(dāng)一個(gè)樣本的k個(gè)最相鄰的樣本中大部分屬于某一類別時(shí),該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機(jī)是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)
一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機(jī)制來分析樣本,并盡可能地對(duì)樣本的特征進(jìn)行更深度的學(xué)習(xí)。以圖片為例,利用深度學(xué)習(xí)技術(shù)對(duì)樣本的特征進(jìn)行學(xué)習(xí)時(shí),由低層特征到高層特征越來越抽象,越來越能表達(dá)語義概念。當(dāng)樣本輸入后,首先對(duì)圖像進(jìn)行卷積與下采樣操作,卷積和下采樣操作是為了進(jìn)行特征提取和選擇。以原始像素作為輸入,深度學(xué)習(xí)技術(shù)可以自動(dòng)學(xué)習(xí)得到較好的特征提取器(卷積參數(shù))。深度學(xué)習(xí)的訓(xùn)練過程,首先將當(dāng)前層的輸出作為下一層的輸入,進(jìn)行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時(shí)優(yōu)化所有層,目標(biāo)是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)太過龐大,難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò),以權(quán)值共享的方式減少了節(jié)點(diǎn)數(shù)量,從而能夠加深學(xué)習(xí)的深度,使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征,從而提高識(shí)別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識(shí)別技術(shù)相比,深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢(shì):
(1)無需人工設(shè)計(jì)特征,系統(tǒng)可以自行學(xué)習(xí)歸納出特征。
(2)識(shí)別準(zhǔn)確度高,深度學(xué)習(xí)在圖像識(shí)別方面的錯(cuò)誤率已經(jīng)低于人類平均水平,在可預(yù)見的將來,計(jì)算機(jī)將大量代替人力進(jìn)行與圖像識(shí)別技術(shù)有關(guān)的活動(dòng)。
(3)使用簡單,易于工業(yè)化,深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識(shí),能夠快速實(shí)現(xiàn)并商業(yè)化,國內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識(shí)別的Face++、研究無人車的馭勢(shì)科技等。
4 存在問題與未來展望
雖然深度學(xué)習(xí)具備諸多優(yōu)點(diǎn),但目前來看深度學(xué)習(xí)仍有許多不足之處。首先,由于深度學(xué)習(xí)模型為非凸函數(shù),對(duì)其的理論研究十分困難,缺乏理論保證。在對(duì)數(shù)據(jù)進(jìn)行調(diào)整時(shí),仍是簡單的“試錯(cuò)”,缺少理論支撐。
同時(shí),由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計(jì)算資源。對(duì)一個(gè)新概念的學(xué)習(xí),往往需要數(shù)百個(gè)甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價(jià)太大時(shí),深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU,這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢,往往需要幾天甚至一個(gè)月。其模型擴(kuò)展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會(huì)迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程,與環(huán)境缺乏交互。
對(duì)其的解決方案目前主要有兩點(diǎn):
(1)針對(duì)于模型擴(kuò)展性差的問題,通過引入遷移學(xué)習(xí),研究不同任務(wù)或數(shù)據(jù)之間的知識(shí)遷移,提高模型的擴(kuò)展能力、學(xué)習(xí)速度,同時(shí)降低學(xué)習(xí)成本,便于冷啟動(dòng)。
(2)與強(qiáng)化學(xué)習(xí)結(jié)合,研究在動(dòng)態(tài)環(huán)境下進(jìn)行深度學(xué)習(xí),提高深度學(xué)習(xí)與環(huán)境交互的能力。
參考文獻(xiàn)
[1]蔣樹強(qiáng),閔巍慶,王樹徽.面向智能交互的圖像識(shí)別技術(shù)綜述與展望[J].計(jì)算機(jī)研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識(shí)別技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強(qiáng)算法[J].計(jì)算機(jī)科學(xué),2016.
[4]孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015:26-39.
[6]高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),2004:86-100.
篇7
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換
中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在軍事電子對(duì)抗等多方面的重要應(yīng)用,通信信號(hào)調(diào)制的自動(dòng)識(shí)別分類問題也相繼發(fā)展起來。無線電信號(hào)調(diào)制實(shí)識(shí)別就是要判斷截獲信號(hào)的調(diào)制種類。為此,需要事先對(duì)其特征進(jìn)行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對(duì)信號(hào)進(jìn)行特征測(cè)量,并根據(jù)測(cè)量結(jié)果對(duì)信號(hào)的調(diào)制進(jìn)行分類判決。
如果把無線電信號(hào)的調(diào)制識(shí)別與分類視為一種模式識(shí)別問題,那末,從模式識(shí)別理論來看,模式分類是模式識(shí)別的一個(gè)子系統(tǒng)。因此,在模式識(shí)別理論框架下,無線電信號(hào)的調(diào)制識(shí)別是一個(gè)總體概念。而調(diào)制分類則只是調(diào)制識(shí)別的一個(gè)分支[1]。
1 基于決策理論的模擬調(diào)制方式識(shí)別方法
此算法主要實(shí)現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對(duì)象序列s(n)是由接收機(jī)中頻輸出并經(jīng)過采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個(gè)步驟:
第一步,根據(jù)信號(hào)的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開,因?yàn)榍叭N信號(hào)的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實(shí)際中接近恒定)。因而可以從中提取一個(gè)特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠(yuǎn)遠(yuǎn)小于前三種信號(hào)。實(shí)際中若R
第二步,根據(jù)信號(hào)頻譜的對(duì)稱性,將AM與USB與LSB區(qū)分開,因?yàn)锳M的單邊頻譜關(guān)于載頻是近似對(duì)稱的,USB和LSB的單邊頻譜對(duì)于載頻來說分別只有上邊頻和下邊頻。因而可以從中提取另一個(gè)特征參數(shù) 。理論上,由于AM的上下邊頻對(duì)稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實(shí)際中若|P|< 0.5,判為AM信號(hào),若P>0.5,判為LSB,P
第三步,零中心非弱信號(hào)段瞬時(shí)相位非線性分量絕對(duì)值的標(biāo)準(zhǔn)偏差:σap 。
σap由下式定義:
(1)
式中,at是判斷弱信號(hào)段的一個(gè)幅度判決門限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號(hào)值的個(gè)數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時(shí)相位的非線性分量,在載波完全同步時(shí),有:?準(zhǔn)NL(i)= φ(i)-φ0
式中:,φ(i)為瞬時(shí)相位。用σap來區(qū)分是DSB信號(hào)還是AM-FM信號(hào)。
第四步,零中心非弱信號(hào)段瞬時(shí)相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。
σdp由下式定義:
(2)
σdp主要用來區(qū)別不含直接相位信息的AM、VSB信號(hào)類和含直接相位信息的DSB、LSB、USB、AM-FM信號(hào)類,其判決門限設(shè)為t(σdp) 。
2 決策論方法的改進(jìn)
前面介紹的基于決策理論的模擬調(diào)制方式識(shí)別方法存在缺陷針對(duì)上述問題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識(shí)別方法。
2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識(shí)別方法
該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過不斷比較網(wǎng)絡(luò)的實(shí)際輸出與指定期望輸出間的差異來不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對(duì)模型細(xì)節(jié)中的諸多問題均有良好效果。
基于NN的模擬信號(hào)調(diào)制識(shí)別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個(gè)輸入層,1個(gè)輸出層,1個(gè)中間層。中間層可采用多層。但由于受到計(jì)算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見。本圖中間層采用單層25個(gè)節(jié)點(diǎn),輸入層和輸出層的節(jié)點(diǎn)數(shù)取決于信號(hào)特征參數(shù)的個(gè)數(shù)和信號(hào)的分類數(shù),因而分別為4和7。
神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲(chǔ)、大規(guī)模自適應(yīng)并行處理和高度容錯(cuò)特性,適用于模式識(shí)別的基礎(chǔ)。其學(xué)習(xí)能力和容錯(cuò)特性對(duì)不確定性模式識(shí)別具有獨(dú)到之處[3]。通信信號(hào)在傳播過程中受到信道噪聲的污染,接受到的信號(hào)是時(shí)變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號(hào)的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時(shí)頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯(cuò)性和推廣能力,兩者優(yōu)勢(shì)的結(jié)合可以得到良好的信號(hào)模式自動(dòng)識(shí)別特性,從而形成各種處理方法。
2.2 基于小波的特征提取和識(shí)別方法
小波特別適用于非穩(wěn)定信號(hào)的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點(diǎn)是它能夠提供一個(gè)信號(hào)局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號(hào)分解成不同頻率的塊信號(hào),它對(duì)不同的時(shí)間和頻率有不同的解釋,因此,對(duì)調(diào)制信號(hào)進(jìn)行小波分解,得到不同水平下的細(xì)節(jié)信息,這些信息對(duì)于不同類別的調(diào)制信號(hào)來說是有差別的[4]。
在實(shí)際應(yīng)用中,小波變換常用的定義有下列兩種:
(3)
(4)
式中,星號(hào)*表示共軛。式(3)表示小波變換是輸入信號(hào)想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。
將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):
(5)
Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實(shí)、頻兩域都具有很好的局部性,它的時(shí)域形式如下:
(6)
雖然信號(hào)特征有很多種,神經(jīng)網(wǎng)絡(luò)在進(jìn)行信號(hào)識(shí)別時(shí),主要是依據(jù)譜峰位置的不同,因此提取信號(hào)特征主要任務(wù)就是尋找信號(hào)類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個(gè)數(shù)學(xué)顯微鏡,通過它,可以詳細(xì)了解各類信號(hào)在不同低頻段上的頻譜構(gòu)成。
整個(gè)系統(tǒng)在PC機(jī)上進(jìn)行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進(jìn)行聲音錄制。
在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個(gè)仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。
3 結(jié)束語
本文僅限于理論理論研究,用MatLab仿真實(shí)現(xiàn),沒有用DSP芯片等物理電路實(shí)現(xiàn),僅為實(shí)際實(shí)現(xiàn)提供理論指導(dǎo)。
參考文獻(xiàn):
[1] 羅利春.無線電偵察信號(hào)分析與處理[M].北京:國防工業(yè)出版社,2003.
[2] 楊小牛,樓才義,徐建良.軟件無線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.
篇8
關(guān)鍵詞:PCA算法;人臉識(shí)別;五級(jí)并行PCA模型;權(quán)重計(jì)算;均值濾波
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)19-0147-02
Research on Face Recognition System Based on Parallel PCA Algorithm
ZHAO Ya-peng
(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )
Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.
Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter
1 概述
隨著智能終端設(shè)備(手機(jī)、Pad、門禁等)的不斷發(fā)展,身份識(shí)別已經(jīng)成為我們?nèi)粘I畹闹匾M成部分,身份驗(yàn)證技術(shù)被廣泛應(yīng)用于各個(gè)領(lǐng)域,特別是人們對(duì)于個(gè)人隱私信息的保護(hù),使得身份識(shí)別再次成為關(guān)注的焦點(diǎn)。人臉識(shí)別作為身份識(shí)別的重要手段之一,因其具有識(shí)別率高、采集性強(qiáng)、接受性高等特點(diǎn),在身份識(shí)別的各類方法中具有獨(dú)特的優(yōu)勢(shì),成為了目前比較熱門的研究領(lǐng)域。
目前,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)是圖像識(shí)別領(lǐng)域最重要的研究熱點(diǎn),而且在語音識(shí)別領(lǐng)域也取得了不錯(cuò)的效果,但是卷積神經(jīng)網(wǎng)絡(luò)的整個(gè)訓(xùn)練過程比較費(fèi)時(shí),而且實(shí)現(xiàn)相對(duì)復(fù)雜,而基于PCA算法的人臉識(shí)別技術(shù)因其自身存在的許多缺陷,一直沒有被廣泛應(yīng)用,但該方法實(shí)現(xiàn)簡單、學(xué)習(xí)速度較快,因此,本文主要研究改進(jìn)的并行PCA算法,以彌補(bǔ)傳統(tǒng)PCA算法在人臉識(shí)別領(lǐng)域的不足。
本文提出的基于并行PCA算法的人臉識(shí)別技術(shù),首先對(duì)原始圖像進(jìn)行預(yù)處理,如灰度歸一化和中值濾波等操作,以消除圖像噪聲、光照等因素造成的影響,使得特征提取更加準(zhǔn)確可靠。然后,通過5級(jí)并行PCA模型獲取數(shù)據(jù)的不同特征矩陣,然后將訓(xùn)練圖像和測(cè)試圖像分別進(jìn)行子空間的投影,利用歐氏徑向基函數(shù)(Euclidean Radial Basis Function)進(jìn)行人臉的匹配,最后根據(jù)訓(xùn)練得到的權(quán)值向量進(jìn)行加權(quán)決策。本文通過ORL人臉數(shù)據(jù)庫的仿真實(shí)驗(yàn)證明,該算法的效果明顯好于PCA算法。
2 并行PCA算法
PCA(Principal Component Analysis)即主成分分析技術(shù),PCA是基于K-L變換的統(tǒng)計(jì)學(xué)分析方法,是多元分析中常用的方法,其基本思想是將高維數(shù)據(jù)投影到低維空間,主要過程在于特征值的計(jì)算和矩陣的降維。將PCA應(yīng)用于人臉識(shí)別時(shí),首先將圖像轉(zhuǎn)化成矩陣向量,然后進(jìn)行矩陣的奇異值分解(Singular Value Decomposition),將高維向量通過計(jì)算得到的特征向量矩陣投影到低維的向量空間,從而減少數(shù)據(jù)的計(jì)算量。
2.1 基于并行PCA算法的人臉識(shí)別流程
本文中提出的并行PCA算法,正是基于上述的PCA算法,通過建立5級(jí)的PCA算法模型同時(shí)進(jìn)行數(shù)據(jù)特征的學(xué)習(xí),使得最終的人臉識(shí)別準(zhǔn)確率得到進(jìn)一步的提高,具體的人臉識(shí)別流程如圖1所示。
2.2 并行PCA算法的實(shí)現(xiàn)的步驟
2.2.1 人臉圖像的預(yù)處理
首先,需要把ORL人臉數(shù)據(jù)數(shù)據(jù)庫的所有訓(xùn)練圖像大小進(jìn)行歸一化,并轉(zhuǎn)化為像素矩陣,矩陣大小記為,為矩陣的行數(shù),為矩陣的列數(shù)。之后利用均值濾波和灰度歸一化進(jìn)行圖像的去噪處理,以消除光線等問題對(duì)圖像造成的影響,以方便后期的特征提取等操作。
2.2.2 人臉圖像的PCA降維
根據(jù)PCA的原理,可以將每一張圖像看成是一個(gè)高維的向量,所有的圖像可以看成是這個(gè)高維空間中的一點(diǎn),PCA要做的就是找出另外一個(gè)盡可能多的反應(yīng)圖像特征的低維空間。
假如樣本由n張大小為p*q的人臉圖像組成,那么每一張圖像可以保存為一列向量,向量維數(shù)是p*q,真?zhèn)€樣本可以看成是一個(gè)行數(shù)為n,列數(shù)為p*q的矩陣記為矩陣A。
根據(jù)上述過程,首先求出矩陣A的協(xié)方差矩陣,然后求出協(xié)方差矩陣的特征值,選取前m個(gè)最大的特征值,然后求出對(duì)應(yīng)的特征向量,組成一個(gè)特征矩陣。通常所說的“特征臉”就是這些特征向量,而特種功能矩陣就是“特征臉”空間或者說子空間。然后可以將每一張圖片投影到該子空間,得到了每一張圖像的投影矩陣(l*m)。
2.2.3 人臉圖像的識(shí)別
對(duì)于待識(shí)別的圖像,也可以看成是一列向量,投影到子空間得到一個(gè)投影矩陣,然后一一求出這個(gè)投影矩陣與樣本圖像投影矩陣最相似的。然而有可能該人臉不是人臉庫中的,所以最相似的人臉也不一定是同一個(gè)人臉,還需要設(shè)置一個(gè)閾值來判斷待識(shí)別人臉是否是人臉庫中的。
人臉識(shí)別部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5級(jí)的PCA模型同時(shí)進(jìn)行人臉識(shí)別這一操作,最后根據(jù)訓(xùn)練得到的權(quán)值向量進(jìn)行決策,通過使用多個(gè)PCA模型,從而使得整個(gè)識(shí)別過程的準(zhǔn)確率得到進(jìn)一步的提升。
3 系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
3.1 系統(tǒng)總體設(shè)計(jì)
本文中所提出的基于并行PCA算法的人臉識(shí)別系統(tǒng),包括人臉圖像采集模塊、圖像預(yù)處理模塊、識(shí)別模塊。人臉圖像采集模塊主要是采集訓(xùn)練圖像數(shù)據(jù)和測(cè)試圖像數(shù)據(jù),并由原始圖像提取出4幅與之對(duì)應(yīng)的部分圖像;圖像預(yù)處理模塊主要就是進(jìn)行圖像歸一化和圖像的去噪工作,圖像的歸一化包括大小歸一化和灰度歸一化,可以使用比較常見的直方圖均衡化等技術(shù),而圖像的去噪可以使用中值濾波技術(shù),以去除比較常見的高斯噪聲等;人臉識(shí)別模塊是基于5級(jí)相互獨(dú)立的PCA模型進(jìn)行特征值的學(xué)習(xí)和比對(duì),而且通過訓(xùn)練得到的權(quán)值向量進(jìn)行最終的是臉識(shí)別決策。整個(gè)系統(tǒng)的實(shí)現(xiàn)是基于Matlab進(jìn)行仿真實(shí)驗(yàn)的,實(shí)驗(yàn)數(shù)據(jù)來自劍橋大學(xué)AT&T實(shí)驗(yàn)室創(chuàng)建的ORL人臉數(shù)據(jù)庫。
3.2系統(tǒng)功能模塊實(shí)現(xiàn)
3.2.1人臉圖像采集實(shí)現(xiàn)
圖像采集模塊主要就是將存儲(chǔ)在本地的圖像文件通過Matlab的imread函數(shù)讀入矩陣中,以方便后期的PCA操作,其核心語句為Image{t}=imread([[filepath,F(xiàn)ilDir(ii).name],'\',ImDir{ii}(jj).name]);
使用上述語句即可讀入訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)文件。
3.2.2 圖像預(yù)處理模塊
該模塊的主要任務(wù)就是利用中值濾波和直方圖均衡化進(jìn)行圖像的去噪工作,以消除不同光照和圖像噪聲的影響,提高準(zhǔn)確率。其核心代碼為:
S1=zeros(1,256);
for i=1:256
for j=1:i
S1(i)=GP(j)+S1(i);
end
end
S2=round((S1*256)+0.5);
for i=1:256
GPeq(i)=sum(GP(find(S2==i)));
end
3.2.3 識(shí)別模塊
圖像經(jīng)過之前的預(yù)處理之后,需要將圖像矩陣轉(zhuǎn)化為列向量,一幅圖像就是一列向量,整個(gè)訓(xùn)練圖像構(gòu)成了整個(gè)特征空間矩陣,測(cè)試圖像也會(huì)轉(zhuǎn)化為一列向量,之后會(huì)利用矩陣之間的運(yùn)算進(jìn)行圖像的分析計(jì)算。識(shí)別模塊的工作就是根據(jù)測(cè)試圖像和之前所有的訓(xùn)練數(shù)據(jù)進(jìn)行對(duì)比,查找到與之最相似的圖像,實(shí)驗(yàn)的結(jié)果如圖2所示。
4 結(jié)論
PCA算法作為傳統(tǒng)的人臉識(shí)別算法,因其自身存在的許多缺陷而沒能發(fā)揮較好的作用,但是其自身具有其他算法所不具有的特點(diǎn),本文設(shè)計(jì)的并行PCA算法雖然是基于PCA算法,但是借鑒了卷積神經(jīng)網(wǎng)絡(luò)的多層結(jié)構(gòu),而且使用加權(quán)操作進(jìn)行最終人臉識(shí)別的決策?;贠RL人臉數(shù)據(jù)庫的測(cè)試結(jié)果表明,該并行PCA算法的準(zhǔn)確率和魯棒性均得到了進(jìn)一步的提升,與其他的單獨(dú)PCA算法具有十分明顯的優(yōu)勢(shì)。
參考文獻(xiàn):
[1] 張利芳. 基于PCA算法的人臉識(shí)別系統(tǒng)研究[D].太原:中北大學(xué),2015.
[2] 楊海燕,蔣新華. 基于并行卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8): 2517-2519.
[3] 楊穎嫻. 基于PCA算法和小波變換的人臉識(shí)別技術(shù)[J]. 微電子與計(jì)算機(jī), 2011, 28(1): 92-94.
[4] 段寶彬,韓立新. 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)及在碎紙拼接中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(9): 176-181.
篇9
關(guān)鍵詞:殘差網(wǎng)絡(luò);人臉圖像:年齡分類:非受限條件:Adience數(shù)據(jù)集
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)14-0169-02
1概述
人臉圖像包含很多信息,如身份、表情、姿態(tài)、性別和年齡。其中,年齡是人的重要生物特征,可以應(yīng)用于多種場(chǎng)景,如基于年齡的人機(jī)交互系統(tǒng)、基于年齡的訪問控制、電子商務(wù)中個(gè)性營銷及刑事案件偵查中的年齡過濾等n,。很多研究者在人臉圖像年齡估計(jì)方面做了大量研究,早期,主要用Gabor,LBP,SFP和BIF等提取特征以及SVM方法進(jìn)行年齡分類,這些人工提取特征的方法在受限條件下的人臉數(shù)據(jù)集上獲得了不錯(cuò)的結(jié)果,但是在非受限條件下的人臉年齡分類任務(wù)中效果不佳;近幾年,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)成為了計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。從5層的LeNet,到8層的AlexNet,再到19層的VGGm和22層的GoogleNet,直到上千層的ResNets,無論是網(wǎng)絡(luò)的學(xué)習(xí)能力還是深度都得到顯著提高。因此,越來越多的學(xué)者采用DCNN解決年齡分類問題,并證明其在非受限條件下能獲得明顯優(yōu)于手工提取特征方法的結(jié)果。
在人臉年齡分類中,人臉圖像往往受到面部姿態(tài)、光線、化妝和背景等影響,極大地限制了人臉年齡分類的準(zhǔn)確性。針對(duì)非受限條件下人臉圖像年齡分類困難的問題,本文提出了一種基于深度殘差網(wǎng)絡(luò)的非受限條件下人臉年齡分類方法。
2 34層殘差網(wǎng)絡(luò)
He等提出了深度殘差網(wǎng)絡(luò)(ResNets),該網(wǎng)絡(luò)采用殘差塊作為網(wǎng)絡(luò)的基本組成部分,可以很大程度上解決DCNN隨著深度增加而帶來的網(wǎng)絡(luò)退化問題。ResNets在原始卷積層外部加人越層連接(shoacut)支路構(gòu)成基本殘差塊RB,使原始的映射H(X)被表示為H(X)=F(X)+x。ResNets通過殘差塊結(jié)構(gòu)將網(wǎng)絡(luò)對(duì)爿(X)的學(xué)習(xí)轉(zhuǎn)化為對(duì)F(X)的學(xué)習(xí),而對(duì)F(X)的學(xué)習(xí)較H(X)更為簡單?;跉埐顗K更易學(xué)習(xí)的特性,ResNets通過順序累加殘差塊成功地緩解了DCNN的退化問題,提高了網(wǎng)絡(luò)性能。
ResNet-34結(jié)構(gòu)如圖1所示,殘差塊的具體表達(dá)式如下,函數(shù)F(x)表示殘差映射,x和y分別代表殘差塊的輸入和輸出。當(dāng)x和F數(shù)相同時(shí),采用式(1),此時(shí)越層連接既沒有增加額外參數(shù)也沒有增加計(jì)算復(fù)雜度。當(dāng)x和F維數(shù)不同時(shí),采用式(2),通過越層連接執(zhí)行1×1卷積映射G(x)以匹配維數(shù)。
ResNet-34網(wǎng)絡(luò)輸入圖像大小為224×224。首先經(jīng)過卷積層,卷積核為7×7,步長為2,輸出特征圖為112×112;再經(jīng)過最大池化層;其次經(jīng)過四組不同殘差塊,各殘差塊組的殘差塊數(shù)量分別為3、4、6和3,并且同組中的殘差塊輸入輸出維度相同,分別為64、128、256和512,各組輸出特征圖大小依次為56×56、28×28、14×14、7×7。最后經(jīng)過平均池化層和全連接層,通過softmax分類器,輸出分類結(jié)果。
3數(shù)據(jù)集
Adience數(shù)據(jù)集來自人們從智能手機(jī)設(shè)備自動(dòng)上傳到網(wǎng)絡(luò)相冊(cè)的圖像。這些圖像在上傳之前并沒有經(jīng)過人工過濾,且這些圖像都是在非受限條件下拍攝的。這些圖像在頭部姿勢(shì)、面部表情和光線條件質(zhì)量等方面都存在很大差異,所以在Adi-ence數(shù)據(jù)集下的人臉圖像年齡分類任務(wù)面臨巨大挑戰(zhàn)。
Adience包含2284個(gè)人的26580張人臉圖像,年齡范圍為0-100歲,共8個(gè)年齡段(0-2,4-6,8-13,15-20,25-32,38-43,48-53,60-),年齡分布如表1。
4實(shí)驗(yàn)結(jié)果與分析
為了提升網(wǎng)絡(luò)的人臉分類性能,本文選用ResNet-34在人臉圖像Adience數(shù)據(jù)集上做年齡分類。訓(xùn)練和測(cè)試時(shí)動(dòng)量值為0.9,權(quán)重衰減為0.0001。batch大小設(shè)為64,epoch設(shè)為164,初始學(xué)習(xí)率為0.1,在81和122個(gè)epoch之后學(xué)習(xí)率分別降為0.01和0.001。本文實(shí)驗(yàn)?zāi)P筒捎肗vidia Titan X GPU訓(xùn)練,運(yùn)行環(huán)境torch7。
本文采用文獻(xiàn)[7]中的交叉驗(yàn)證方法,將Adience數(shù)據(jù)集分成五組不同圖像(fold-0,fold-1,fold-2,fold-3,fold-4),令其中一組圖像作為測(cè)試集,其余四組圖像作為訓(xùn)練集,共構(gòu)成五種檢測(cè)方式。通過計(jì)算平均分類準(zhǔn)確度和1-off值作為評(píng)估標(biāo)準(zhǔn)。在fold-0測(cè)試的年齡分類準(zhǔn)確度的曲線圖如圖2所示,由此可知網(wǎng)絡(luò)能夠很好地收斂。
為了驗(yàn)證本文方法的有效性,將現(xiàn)有在Adience數(shù)據(jù)集上的年齡分類方法與本文方法對(duì)比,各方法人臉年齡分類結(jié)果如表2所示。由表2可以看出本文提出的方法獲得了除DEX w/IMDB-WIKI Pretrain方法以外的最高年齡分類準(zhǔn)確度,主要由于文獻(xiàn)[10]用大規(guī)模人臉數(shù)據(jù)集IMDB-WIKI微調(diào)網(wǎng)絡(luò)。不經(jīng)過大數(shù)據(jù)集對(duì)網(wǎng)絡(luò)微調(diào)時(shí),本文提出的基于深度殘差網(wǎng)絡(luò)的年齡分類方法獲得了最高年齡分類準(zhǔn)確度。
篇10
關(guān)鍵詞:黑白棋;人工智能;算法
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)29-0198-03
1簡介
黑白棋是被稱為“設(shè)計(jì)理念”僅次于圍棋的棋類游戲。它的棋盤只有8*8大,乍一看貌似簡單,以為只要略微搜索就可以窮盡其中的路數(shù)。然而隨著探究的不斷深入,這個(gè)看似簡單的游戲卻不斷涌現(xiàn)出它神秘莫測(cè)的一面。
作為一名高中生,經(jīng)過為數(shù)不多課余時(shí)間的努力,我所設(shè)計(jì)的黑白棋程序bwcore實(shí)力已經(jīng)達(dá)到相當(dāng)?shù)乃?。?jīng)測(cè)試,它在北京大學(xué)人工智能對(duì)抗平臺(tái)上戰(zhàn)力排行達(dá)到第一。通過與另外一些AI的測(cè)試表明,目前的bwcore可以輕易打敗國內(nèi)個(gè)人編寫的程序,亦能與專業(yè)公司開發(fā)的黑白棋軟件(zebra,傷心黑白棋等)相抗衡。
本篇著重講述了bwcore是如何更好地運(yùn)用各類算法,使之融入到黑白棋AI設(shè)計(jì)中,達(dá)到提高AI水平的目的。本文還對(duì)AI設(shè)計(jì)作了一定程度的研究,先是介紹了一些較基礎(chǔ)的算法在黑白棋AI設(shè)計(jì)中的應(yīng)用,而后還探討了實(shí)現(xiàn)AI的一些更高級(jí)的方法,以求有所突破。
2AI設(shè)計(jì)
2.1Minimax搜索
Minimax搜索的第一要義是雙方都按照對(duì)自己最有利的決策,對(duì)盤面進(jìn)行模擬。如果能夠評(píng)價(jià)某一時(shí)刻其中一方的優(yōu)劣程度,則另一方走棋時(shí)就會(huì)選一種使對(duì)方優(yōu)勢(shì)盡可能小的走法。如圖所示,按照這種方式模擬出井字棋所有可能的局面,所有局面就構(gòu)成一棵極大極小博弈樹。
根據(jù)上述做法,不難寫出簡易MiniMax搜索的代碼。當(dāng)搜索達(dá)到指定深度后,進(jìn)行當(dāng)前局面的分值估算。val為當(dāng)前層的分值,當(dāng)前層的顏色與己方相同時(shí),使之盡可能大。
float Cmp_BW::MaxMinSearch(Map&fmap,int col,int deep)
{
if deep>target_deep Then
search_cnt++;
return Sence_Evalution
For-Each place_in_board
If place_is_availaleThen
MakeMove
ret=MaxMinSearch(board.color_other,deep+1);
UnMakeMove
if col==my_color Then
2.2剪枝c改進(jìn)
Minimax算法提供了一種在博弈樹上尋求最優(yōu)解的方法,但缺點(diǎn)很明顯。算法需要遍歷博弈樹上所有可能的情況,盡管很多時(shí)候是根本不可能的(例如一方選擇了一個(gè)明顯劣勢(shì)的位置)。通過AlphaBeta剪枝可以減少這種情況發(fā)生。如果當(dāng)前結(jié)點(diǎn)獲得的值已經(jīng)小于其父節(jié)點(diǎn)之前得出的值,那么就沒有繼續(xù)搜索的必要,因?yàn)榘凑者x擇的邏輯,這個(gè)節(jié)點(diǎn)一定會(huì)被父節(jié)點(diǎn)排除在外。
經(jīng)測(cè)試,搜索的節(jié)點(diǎn)數(shù)明顯減少,約為原來的3/4次方。
測(cè)試表明,一般人已經(jīng)難以戰(zhàn)勝4~5層的搜索了。而把搜索深度設(shè)定為4層可以在botzone排行榜上達(dá)到約40名。
3高級(jí)搜索方法
3.1蒙特卡洛搜索
谷歌的圍棋智能AlphaGo就使用了基于蒙特卡洛樹搜索(MCTS)的搜索方式。MCTS在圍棋領(lǐng)域十分成功,在其他方面也有很大的借鑒意義。
蒙特卡洛搜索通過對(duì)局面的隨機(jī)模擬來獲得對(duì)各個(gè)節(jié)點(diǎn)搜索的關(guān)注程度,可以說在理念上很接近人的思維方式。UCT算法是蒙特卡洛搜索的一種,旨在得分未知的前提下使期望得分最大。UCT算法為每一個(gè)節(jié)點(diǎn)計(jì)算UCB值,每次擴(kuò)展時(shí)選擇UCB最大的節(jié)點(diǎn)。
其中,X表示以前的收益,N表示總次數(shù),T表示當(dāng)前階段的次數(shù)。這個(gè)式子的蘊(yùn)含的內(nèi)容是,如果一個(gè)節(jié)點(diǎn)的得分很高,那么就它很值得深入研究,而一些得分較低的節(jié)點(diǎn)有時(shí)也會(huì)去嘗試,但次數(shù)不會(huì)很多。在極端條件下,多個(gè)選擇方案中有一個(gè)方案的值遠(yuǎn)好于其他方案,則UCT算法的收斂速度很快。另一方面,如果所有方案得分相差不大,UCT隨著搜索次數(shù)的增加,所有節(jié)點(diǎn)的得分趨于穩(wěn)定。
結(jié)果表明單純的UCT算法效率極高,經(jīng)過很少時(shí)間就估算出精確值相近的結(jié)果。但因有時(shí)隨機(jī)選點(diǎn)得出結(jié)果差異大,下棋時(shí)偶爾會(huì)出現(xiàn)失誤。但總體而言,樸素的UCT算法的效果已經(jīng)很優(yōu)秀,測(cè)試過程中棋力超過前面基于MiniMax搜索的算法??梢韵胍姡绻茉赟imulation過程中加以優(yōu)化,還有很大提升空間。
3.2遺傳算法
遺傳算法也是比較好的搜索方式,它通過借鑒生物界的進(jìn)化規(guī)律來加強(qiáng)搜索。將前面的搜索局面各行列情況視為遺傳算子,搜索過程中經(jīng)過交叉、變異算子,評(píng)估新算子的可靠程度,將進(jìn)化較成功算子反作用于搜索,每次得出更好的搜索方法。具體過程如下:
1)隨機(jī)生成n個(gè)個(gè)體作為迭代的初始群體;
2)計(jì)算群體中每個(gè)個(gè)體的適應(yīng)程度;
3)進(jìn)行選擇,把適應(yīng)度高的個(gè)體的基因傳遞給下一代;
4)使新生成個(gè)體的基因交叉互換;
5)對(duì)基因做一定程度的變異;
6)返回2),除非適應(yīng)度達(dá)到指定水平或已經(jīng)達(dá)到最大迭代次數(shù)。
經(jīng)過多次迭代,適應(yīng)度高(這里即勝率高)的基因?qū)⑦z傳下來,最終得到高度適應(yīng)的群體,即我們下一步所期望的走法。
4機(jī)器學(xué)習(xí)與增強(qiáng)學(xué)習(xí)
前面的幾種搜索方法比原先單純的搜索更具智能性,有更高的效率。目前為止,我們還未對(duì)局面的評(píng)估做出很好的改進(jìn)。而估價(jià)函數(shù)的選取十分困難,大多依靠編寫者自己的直覺,有時(shí)為了讓某個(gè)權(quán)重來達(dá)到合適的值,還要耗費(fèi)大量時(shí)間進(jìn)行試驗(yàn)并調(diào)節(jié)。所幸,運(yùn)用機(jī)器學(xué)習(xí)的方法可以使這些問題得到較好的解決。
4.1決策樹與隨機(jī)森林
決策樹(Decision Tree)是其中一種比較簡單的做法。決策樹可用于對(duì)帶標(biāo)簽數(shù)據(jù)的分類,并可以在相對(duì)短的時(shí)間得出效果良好的結(jié)果。依照數(shù)據(jù)標(biāo)注的特點(diǎn),決策樹的每一個(gè)分支對(duì)這些樣本進(jìn)行劃分,最終使樣本按照標(biāo)簽歸類。預(yù)測(cè)時(shí),將想要預(yù)測(cè)的數(shù)據(jù)選擇相應(yīng)分支找到對(duì)應(yīng)的歸屬即可。
在黑白棋中,如果將黑方獲勝視為樣本中的正類,白方獲勝視為負(fù)類,棋盤上黑白棋子的位置作為樣本的標(biāo)簽,就可以將對(duì)局面的評(píng)價(jià)轉(zhuǎn)化為分類問題。決策樹通過不停尋找最優(yōu)分裂使數(shù)據(jù)更好地被分離。這里使用C4.5算法,通過信息熵獲得最優(yōu)分裂。由于單純使用棋子的位置作為標(biāo)簽信息量較大且十分復(fù)雜,容易造成一種稱為過擬合的題。將決策樹上改為隨機(jī)森林,可以避免了過擬合,節(jié)約了訓(xùn)練時(shí)間。
4.2神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)是當(dāng)下計(jì)算機(jī)話題最熱門的內(nèi)容之一。神經(jīng)網(wǎng)絡(luò)的種類繁多,BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中最簡單的一種模型。
BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖,左邊為輸入層節(jié)點(diǎn),右邊為輸出層節(jié)點(diǎn),中間包含一個(gè)或多個(gè)隱含層。
每個(gè)神經(jīng)元從其上一層獲得輸入,將輸入通過自身權(quán)值和閾值變換后施以適當(dāng)激活函數(shù),傳遞到下一次神經(jīng)元。這樣的過程稱為正向傳遞(Fowed Transfer)過程。根據(jù)正向傳遞得到的網(wǎng)絡(luò)輸出與訓(xùn)練目標(biāo)比較計(jì)算當(dāng)前網(wǎng)絡(luò)的誤差,然后向前調(diào)整各個(gè)神經(jīng)元權(quán)值,就是所謂的反向傳遞(Reverse Transfer)過程。BP網(wǎng)絡(luò)不停通過這種方式訓(xùn)練減小誤差,最終使每個(gè)訓(xùn)練輸入都收斂于目標(biāo)輸出。
這里使用棋盤上黑白棋子的分布作為輸入層節(jié)點(diǎn),用01表示,輸出層表示輸贏棋子數(shù)。訓(xùn)練結(jié)果表明,雖然目前的網(wǎng)絡(luò)能較好地?cái)M合訓(xùn)練集中的局面,但對(duì)于推廣與訓(xùn)練集不同的輸入數(shù)據(jù)較為困難,這可能是因?yàn)楫?dāng)前所使用網(wǎng)絡(luò)的局限性。此外,BP神經(jīng)網(wǎng)絡(luò)隱含層的層數(shù)不宜過多,否則收斂十分緩慢。使用深度學(xué)習(xí)中更高級(jí)的神經(jīng)網(wǎng)絡(luò)如卷積神經(jīng)網(wǎng)絡(luò)(CNN)等應(yīng)該能夠得到更好的效果,但過程比較復(fù)雜,目前個(gè)人難以實(shí)現(xiàn)。
4.3訓(xùn)練方式
學(xué)習(xí)算法需要進(jìn)行訓(xùn)練,一種方式是使用接近后期時(shí)搜索得出的結(jié)果,這種方式獲得樣本的準(zhǔn)確度較高。如果按照終局搜索步數(shù)15-20步計(jì),訓(xùn)練好的AI將可以在近30步時(shí)獲取很大優(yōu)勢(shì)。
//用后期對(duì)局結(jié)果作為樣本訓(xùn)練
void Cmp_BW::train(int repeat)
For lxain_count
For remain_step>target_step
run_easy(map)//使用簡單方式下棋,節(jié)約時(shí)間
score=getScore(map)//獲得比分
deetree.tmin(map,score);//用樣本訓(xùn)練