- 相關(guān)推薦
大詞匯連續(xù)漢語語音的MLP聲學(xué)特征的研究論文
摘要:
短時聲學(xué)特征參數(shù)如MFCC,PLP作為輸入向量的高斯混合模型(GMM)的隱馬爾可夫模型(HMM)的經(jīng)典模型在大詞匯連續(xù)語音識別系統(tǒng)(LVCSR)已取得了良好識別效果。但針對短時聲學(xué)特征區(qū)分性差的特點,本文提出采用神經(jīng)網(wǎng)絡(luò)多層感知器(MLP)產(chǎn)生的兩種類型差異特征HATs與TANDEM代替短時特征,分別訓(xùn)練GMM參數(shù)模型。實驗結(jié)果表明,差異特征的GMHMM的LVCSR系統(tǒng)優(yōu)于傳統(tǒng)的短時特征的系統(tǒng);為了更進(jìn)一步提高系統(tǒng)識別率,該文又將兩種類型差異特征HATs與TANDEM進(jìn)行復(fù)合,構(gòu)成MLPs特征流重建GMHMM,系統(tǒng)的錯字率(CER)有2%——3.8%的明顯改善。
關(guān)鍵詞:多層感知器;差異特征;隱馬爾可夫;高斯混合模型
對語音信號特征參數(shù)的研究是建立良好的語音識別系統(tǒng)的基礎(chǔ)與關(guān)鍵。在過去的研究中,語音識別系統(tǒng)的特征提取成分主要包括頻譜包絡(luò)預(yù)測,特別是經(jīng)過某些簡單變化后的特征,目前前端大部分是基于短時軌跡(約10ms)信號分析的美爾倒譜(MFC)或是感知線性預(yù)測(PLP)。但這些傳統(tǒng)的短時特征參數(shù)存在著對信號變化過于敏感,不能反映連續(xù)幀之間的相關(guān)特性,區(qū)分性差等方面的不足。近年來,國外很多語音研究機(jī)構(gòu)在語音信號的特征提取、聲學(xué)建模方面引入了神經(jīng)網(wǎng)絡(luò)ANN,其中由Berkeley國際計算機(jī)學(xué)院(ICSI)提出用基于MLPs的特征取代傳統(tǒng)特征,系統(tǒng)的識別率得到了明顯改善[1-3];贛LPs特征的差異性的優(yōu)勢和GMM/HMM模型的成熟性,本文提出將變換后的MLPs差異特征后驗概率看作是GMHMM的輸入向量,重新構(gòu)建GMHMM模型。實驗結(jié)果表明MLPs特征具有更好的特性,LVCSR的識別率得到了明顯的改善。
1、基于MLP的差異聲學(xué)特征。
為彌補了來自言語感知和倒譜的短時分析的不足,獲取時序相關(guān)聯(lián)的多幀語音信息(即音素信息),文本引入了神經(jīng)網(wǎng)絡(luò)ANN的MLP,以提取基于非短時軌跡的非傳統(tǒng)特征。本文采用的MLP特征為HATs和TANDEM兩種。
。1)長時HATs特征參數(shù)。
HATs特征基于人對不同頻帶的感覺不同,HATs特征提取將由兩級MLP實現(xiàn)[4-5],第一級由15個MLP即將關(guān)鍵頻帶數(shù)分為15個,第二級由1個MLP構(gòu)成。HATs的基本實現(xiàn)步驟:
、僖狸P(guān)鍵頻帶,分別計算每個短時窗(10ms)對應(yīng)的關(guān)鍵頻帶的能量的log值(即為短時頻段能量參數(shù))。
、诜謩e將各頻帶短時能量參數(shù)串聯(lián)為0.5s的長時頻帶能量參數(shù)作為HATs第一級的輸入?yún)?shù)。串聯(lián)方法為將前25幀、后25幀和當(dāng)前幀同頻段的能量參數(shù)相串聯(lián)(25+25+1=51),作為該關(guān)鍵頻帶的MLP的51個輸入單元。即第一級的每個MLP都具有51個輸入端。每一個MLP都是為了證實當(dāng)前幀為某個音素的后驗概率P(Pj/Xt)。因此,在語音識別系統(tǒng)中,每一個MLP的輸出單元代表了一個音素。由于這些MLP為差別性音素提供了音素后驗,所產(chǎn)生的特征為語音識別提供了音素差別性能力。
、鄄捎胹oftmax函數(shù)將每一個MLP的概率輸出匯總為1,實現(xiàn)歸一化。
xij是來自隱藏單元i的輸入;wij是隱藏單元i與輸出單元j的權(quán)值;zj是作為音素后驗的MLP的輸出。隱藏單元應(yīng)用sigmoid函數(shù)限止其輸出值在0-1之間。
因為每個關(guān)鍵頻帶對不同的音素反映不同,所以每個第一級的輸出都提供了音素后驗概率。第二級的目的在于接合所有音素后驗概率,對當(dāng)前幀所屬音素的認(rèn)定作最后的決策。從不同的實驗表明,針對于LVCSR最成功的做法是采用第一級隱藏層的結(jié)果作為第二級的輸入。因為第一級softmax使所有的輸出都轉(zhuǎn)化為同一級別,這樣就削弱甚至是抹殺了第一階段涉及所有的MLP的鑒別力。由于第二級的輸入是源自第一階段的隱藏層,即隱藏激活hidden activation TRAPS (HATS)。第二級的輸入單元的數(shù)目為15×h,h是第一級每個MLP的隱藏單元數(shù)目,本文采用60個隱藏單元。最后,從第二級MLP計算出音素后驗概率。由于系統(tǒng)采用71個音素[10],所以HATs的輸出是一個71維的音素后驗概率。二級MLP的HATs特征描述如圖 1所示。
(2)TANDEM特征。
本文采用的另一個MLP特征是中期特征TANDEM[6]。其MLP的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
由于本文采用MFCC作為常規(guī)HMM的輸入特征,為了最大化收集新信息,該TANDEM網(wǎng)絡(luò)采用標(biāo)準(zhǔn)短時特征采用PLP倒譜特征。TANDEM由一個MLP網(wǎng)絡(luò)組成,抽取相鄰9幀的PLP和基音,以42×9(42維,9幀)為MLP的輸入,15000個隱藏單元。隱藏單元依然用sigmoid函數(shù),輸出單元用后驗softmax函數(shù)。最后MLP輸出71個音素的后驗概率。
2、MLPs聲學(xué)特征的混合。
本文提出的聲學(xué)特征的混合是基于MLP的長時HATs與中期TANDEM復(fù)合為MLPs特征流。
HATs與TANDEM是采用兩套MLP系統(tǒng)產(chǎn)生的,也即每一幀都有兩個音素后驗概率。在文獻(xiàn)[7]中指出,將其兩種后驗概率進(jìn)行復(fù)合后,其MLP的特征更有效。為此,本文采用以下步驟實現(xiàn)音素后驗的復(fù)合[8]:
。1)建立后驗音素向量:采用Demspter-shafter[7]逆熵加權(quán)策略將兩套音素后驗概率合成音素后驗向量[r1 r2…r71]。
。2)用log計算音素后驗向量:為了讓音素后驗向量與傳統(tǒng)特征復(fù)合,采用log函數(shù)計算使之更像高斯分布;
(3)用PCA實現(xiàn)降維和正交化:為了后期與其它特征復(fù)合,71維的音素后驗向量需進(jìn)行降維處理;因為高斯密度函數(shù)常認(rèn)為是相互獨立,對角協(xié)方差的,所以音素后驗向量需要正交化,進(jìn)行均值和方差的歸一化。最終實現(xiàn)將兩個71維的音素后驗降為一個35維的MLPs。
3、模型訓(xùn)練。
本文的聲學(xué)模型是以跨詞三音子3狀態(tài)左-右的HMM。基于狀態(tài)共享的決策樹總數(shù)為4500個上下文相關(guān)音素狀態(tài)。系統(tǒng)采用3個級別的訓(xùn)練,第1級是聲道長度的歸一化(VTLN)的訓(xùn)練。為了補償語者差異性,在第2級中采用了受限的最大似然線性回歸的說話人自適應(yīng)的訓(xùn)練(SAT/CMLLR),建立語者獨立模型。最后是建立語言模型重估(LM rescoring)模型[9]。
4、語料庫。
本文系統(tǒng)使用了230小時的廣播新聞和廣播對話語音數(shù)據(jù)進(jìn)行訓(xùn)練。230小時的語料包括了30小時的HUB4,由GALE發(fā)布的100小時廣播新聞和100小時廣播談話。識別中使用了2.2小時的eval06和2.5小時的dev07兩組語料。詳細(xì)語料信息見表 1。
5、實驗結(jié)果及結(jié)論。
本文應(yīng)用德國亞琛工業(yè)大學(xué)語音研究所開發(fā)的LVCSR漢語語音識別系統(tǒng)[9]進(jìn)行實驗。采用230小時語料庫為71個漢語音素基元模型分別建立基于MFCC的HMGMM模型及MLPs/ pitch混合聲學(xué)特征的HMGMM模型,在識別階段均使用eval06與dev07的語料進(jìn)行識別,其識別結(jié)果用連續(xù)識別的字錯誤率(Character Error Rate CER%)進(jìn)行評價。其結(jié)果如表 2所示。
采用MLP的特征比傳統(tǒng)的短時特征都有良好的識別特性,TANDEM特征系統(tǒng)的CER約有0.5%的改善,HATs的特性比TANDEM更好,系統(tǒng)的CER減少約1%~2.5%,采用MLPs復(fù)合聲學(xué)特征,系統(tǒng)的識別率有了最大的提高,CER得到了2%-3.8%的改善。本文復(fù)合的聲學(xué)特征為中時(9幀)和長時(51幀)的信息,能否將短時特征再與其復(fù)合以提高系統(tǒng)識別率,還待進(jìn)一步研究。
參考文獻(xiàn):
[1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004.
[2] Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech Recognition[C].inProc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii, 2007(4):633-636.
[3] 閻平凡,張長水,“人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計算”[M]. 清華大學(xué)出版社 2005.
[4] wang M Y.Building a highly accurate mandarin speech recognizer[J].in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.
[5] Chen B. Learning long-term temporal features in LVCSR using neural networks[J].in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.
[6] Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systems[C]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, 2000:1635-1638.
[7] Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidence[J]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.
[8] Morgan N, Chen B Y, Zhu Q, et al. Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognition[J].in Proceedings of IEEE ICASSP, Montreal, May 2004.
[9] Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J].In Interspeech, Brisbane, Australia, September 2008:2426-2429.
[10] 呂丹桔, Hwang M, HoffmEIster B. 漢語連續(xù)語音識別之音素聲學(xué)模型的改進(jìn)[J].計算機(jī)仿真,2010(5).
【大詞匯連續(xù)漢語語音的MLP聲學(xué)特征的研究論文】相關(guān)文章:
漢語語音研究的幾個問題04-29
略談現(xiàn)代漢語詞匯研究04-28
漢語語音對英語語音學(xué)習(xí)的影響探析05-02
語音詞匯教學(xué)教案04-25
當(dāng)代漢語詞匯研究的新成果-讀張小平《當(dāng)代漢語詞匯發(fā)展變化研究》05-02
普通話輕聲的聲學(xué)特征與讀法04-26
封閉空腔聲學(xué)特性研究04-28