企業(yè)簡(jiǎn)介:
目前,基于YQ5969的語(yǔ)音識(shí)別芯片原理實(shí)現(xiàn)的語(yǔ)音識(shí)別與控制系統(tǒng),
具有體積小、成本低、便于攜帶等優(yōu)點(diǎn)。
該語(yǔ)音識(shí)別芯片原理基于以下幾個(gè)基本模塊所構(gòu)成:
語(yǔ)音識(shí)別芯片原理
該語(yǔ)音識(shí)別芯片原理模塊的主要任務(wù)是從輸入語(yǔ)音信號(hào)中提取聲學(xué)特征,
對(duì)環(huán)境噪聲、通話信道、說話人聲道特征等進(jìn)行歸一化和補(bǔ)償,
盡量降低參數(shù)分量之間的耦合,對(duì)數(shù)據(jù)進(jìn)行壓縮,得到聲學(xué)建模和匹配的特征。
語(yǔ)音識(shí)別芯片原理發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其音素序列,
通過訓(xùn)練好的模型對(duì)語(yǔ)音進(jìn)行解碼,獲得最可能的詞序列,
發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的關(guān)聯(lián)映射。
該語(yǔ)音識(shí)別芯片原理是使用隱馬爾可夫模型來(lái)刻畫一個(gè)音素內(nèi)部子狀態(tài)變化,
來(lái)解決特征序列到多個(gè)語(yǔ)音基本單元之間對(duì)應(yīng)關(guān)系的問題。而在訓(xùn)練的時(shí)候,
我們需要使用
Baum-Welch 算法[23]
學(xué)習(xí)隱馬爾可夫模型參數(shù),
進(jìn)行似然估計(jì) (Maximum
Likelihood Estimation, MLE)。
Baum-Welch 算法是EM
(Expectation-Maximization) 算法的一種特例,
利用前后項(xiàng)概率信息迭地依次進(jìn)行計(jì)算條件期望的
E 步驟和條件期望的
M 步驟。
YQ5969語(yǔ)音識(shí)別芯片原理主要是刻畫人類語(yǔ)言表達(dá)的方式習(xí)慣,
著重描述了詞與詞在排列結(jié)構(gòu)上的內(nèi)在聯(lián)系。在語(yǔ)音識(shí)別解碼的過程中,
在詞內(nèi)轉(zhuǎn)移參發(fā)聲詞典、詞間轉(zhuǎn)移參語(yǔ)言模型,好的語(yǔ)言模型不僅能夠提高解碼效率,
還能在一定程度上提高識(shí)別率。
該語(yǔ)音識(shí)別芯片原理的語(yǔ)言模型分為規(guī)則模型和統(tǒng)計(jì)模型兩類,
統(tǒng)計(jì)語(yǔ)言模型用概率統(tǒng)計(jì)的方法來(lái)刻畫語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,
其設(shè)計(jì)簡(jiǎn)單實(shí)用而且取得了很好的效果,
已經(jīng)被廣泛用于語(yǔ)音識(shí)別、機(jī)器翻譯、情感識(shí)別等領(lǐng)域。
當(dāng)前詞的概率只與前N-1 個(gè)詞相關(guān)。于是詞序列 w1, . .
. , wm 的概率
P(w1, . . . , wm)
為了得到公式中的每一個(gè)詞在給定上文下的概率,
語(yǔ)音識(shí)別芯片原理需要一定數(shù)量的該語(yǔ)言文本來(lái)估算。
可以直接使用包含上文的詞對(duì)在全部上文詞對(duì)中的比例來(lái)計(jì)算該概率,即
對(duì)于在文本中未出現(xiàn)的詞對(duì),我們需要使用平滑方法來(lái)進(jìn)行近似,
如
Good-Turing估計(jì)或
Kneser-Ney 平滑等。
語(yǔ)音識(shí)別芯片原理解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,
利用先進(jìn)的加權(quán)有限狀態(tài)轉(zhuǎn)換(WFST)技術(shù),將聲學(xué)模型、發(fā)音詞典、
語(yǔ)言模型進(jìn)行有效整合,并以最有效的方式,對(duì)輸入的語(yǔ)音信號(hào)特征進(jìn)行搜索和匹配,
到統(tǒng)計(jì)意義下最匹配的詞串作為識(shí)別結(jié)果。
語(yǔ)音識(shí)別芯片原理特征的穩(wěn)定性、模型的精度和覆蓋能力、解碼的效率和質(zhì)量,
是影響語(yǔ)音識(shí)別系統(tǒng)的核心技術(shù)。
人麥信息團(tuán)隊(duì),對(duì)這些領(lǐng)域有超過20年的研究經(jīng)驗(yàn)和技術(shù)積累,
具有國(guó)際{yl}的核心技術(shù)和整合能力,是語(yǔ)音識(shí)別芯片原理的核心競(jìng)爭(zhēng)力所在。
人麥信息的語(yǔ)音識(shí)別技術(shù)有如下幾大特色:
語(yǔ)音識(shí)別芯片原理基于大規(guī)模訓(xùn)練數(shù)據(jù),
擁有上千小時(shí)的語(yǔ)音數(shù)據(jù)和TB量級(jí)文本數(shù)據(jù),作為聲學(xué)和語(yǔ)言建模語(yǔ)料。
語(yǔ)音識(shí)別芯片原理成熟的特征處理、聲學(xué)和語(yǔ)言建模方法,
包括抗噪特征抽取,最小音素錯(cuò)誤(MPE/fMPE)區(qū)分度訓(xùn)練,說話人自適應(yīng)訓(xùn)練(SAT),
基于深層經(jīng)網(wǎng)絡(luò)(DNN)的聲學(xué)建模方法,基于Map-Reduce的海量數(shù)據(jù)統(tǒng)計(jì)語(yǔ)言建模方法的深度整合,
使語(yǔ)音識(shí)別芯片原理的模型精度達(dá)到國(guó)際{lx1}水平。
語(yǔ)音識(shí)別芯片原理深度優(yōu)化的快速解碼算法,
采用基于WFST動(dòng)靜態(tài)結(jié)合的Viterbi解碼技術(shù),
針對(duì)大規(guī)模連續(xù)語(yǔ)音的識(shí)別任務(wù),在詞匯量達(dá)到數(shù)十萬(wàn)、
語(yǔ)言模型達(dá)到數(shù)十GB量級(jí)的巨大搜索空間到對(duì)應(yīng)說話語(yǔ)音的句子匹配,
在準(zhǔn)確性和實(shí)時(shí)性上都達(dá)到國(guó)際{lx1}水平。
人麥信息的語(yǔ)音識(shí)別芯片原理為了實(shí)現(xiàn)好的識(shí)別效果,
采用了復(fù)雜度非常高的算法,也使用了大量的資源文件。
因此人麥信息的語(yǔ)音識(shí)別芯片原理的性能指標(biāo)是受軟件和硬件多方面因素影響的。
下面將對(duì)影響語(yǔ)音識(shí)別芯片原理性能的因素進(jìn)行一些分析和說明。
1.測(cè)試 CPU 運(yùn)算能力:因?yàn)檎Z(yǔ)音識(shí)別芯片原理內(nèi)部進(jìn)行了大量的邏輯和數(shù)學(xué)運(yùn)算,
運(yùn)行語(yǔ)音識(shí)別的 CPU 運(yùn)算能力(簡(jiǎn)單可以用 CPU 的主頻來(lái)表示)
會(huì)極大的影響識(shí)別系統(tǒng)的性能表現(xiàn)。CPU
主頻越高識(shí)別系統(tǒng)的性能越高;
2.內(nèi)存:語(yǔ)音識(shí)別芯片原理在的過程中,使用了大量的內(nèi)存進(jìn)行中間數(shù)據(jù)的存貯,
并且內(nèi)存中的數(shù)據(jù)進(jìn)行了非常頻繁的操作和計(jì)算,因此內(nèi)存的可用大小和存取速度
對(duì)識(shí)別系統(tǒng)的性能也有顯著的影響,如果內(nèi)存容量低于要求的大小,
語(yǔ)音識(shí)別芯片原理不能表現(xiàn)出性能;
內(nèi)存的存取速度越快,識(shí)別系統(tǒng)的性能也會(huì)越好。
http:///
肖先生 微信:dao91123