目前來說離線語(yǔ)音芯片和在線語(yǔ)音芯片的應(yīng)用前景都非常廣泛,離線語(yǔ)音芯片和在線語(yǔ)音芯片的主要區(qū)別在于離線語(yǔ)音芯片無需依賴網(wǎng)絡(luò)即可實(shí)現(xiàn)語(yǔ)音指令控制產(chǎn)品,一個(gè)需要聯(lián)網(wǎng)來實(shí)現(xiàn)更好的語(yǔ)音交互功能,很多人也把在線語(yǔ)音芯片稱之為AI交互語(yǔ)音芯片主要應(yīng)用于產(chǎn)品的AI對(duì)話功能比如唯創(chuàng)知音的WT2606A和WT3000A。

離線語(yǔ)音芯片的工作原理講解
這里以唯創(chuàng)知音的離線語(yǔ)音芯片WTK6900FC來舉例,這款離線語(yǔ)音芯片支持四國(guó)語(yǔ)言分別是中文/英語(yǔ)/韓語(yǔ)/日語(yǔ),同時(shí)還支持喚醒詞10條、喚醒詞自學(xué)習(xí)1條、命令詞300條、命令詞自學(xué)習(xí)19條。
以上這些功能都是直接在本地完成的,離線語(yǔ)音芯片通過聲音采集、信號(hào)處理、語(yǔ)義識(shí)別、指令判斷、指令執(zhí)行這幾個(gè)環(huán)節(jié)來實(shí)現(xiàn)離線語(yǔ)音控制功能的,下面我們一起來詳細(xì)了解一下離線語(yǔ)音芯片的工作過程。
1.聲音采集
人說話的時(shí)候會(huì)產(chǎn)生聲波,麥克風(fēng)(內(nèi)置或外接)接收空氣中的聲波,通過聲電轉(zhuǎn)換原理,將聲波振動(dòng)轉(zhuǎn)化為連續(xù)的模擬電信號(hào)(如電壓變化)。模擬電信號(hào)會(huì)先經(jīng)過一個(gè)簡(jiǎn)單的前置放大電路(增強(qiáng)弱信號(hào))和抗混疊濾波器(過濾高頻干擾)最終由
ADC 轉(zhuǎn)換器按固定頻率(如 16kHz 采樣率)對(duì)模擬信號(hào) “采樣”,并將其量化為離散的數(shù)字信號(hào)(如 16 位精度的數(shù)字?jǐn)?shù)據(jù)),存入
WTK6900FC的RAM 臨時(shí)緩存。
2.信號(hào)處理
臨時(shí)緩存當(dāng)中的信號(hào)含有各種各樣的環(huán)境噪音,比如在電風(fēng)扇在工作狀態(tài)下就會(huì)產(chǎn)生一些嗚嗚或者嗡嗡的聲音,還有一些周邊的環(huán)境聲,如果直接識(shí)別這些聲音則會(huì)影響識(shí)別準(zhǔn)確率,所以我們的離線語(yǔ)音芯片WTK6900FC需要對(duì)這些“噪音”進(jìn)行處理,采用專用算法(如譜減法、維納濾波),通過分析
“語(yǔ)音信號(hào)” 與 “噪聲信號(hào)” 的頻率差異,剔除背景噪聲,保留純凈的聲音信號(hào)。
3.語(yǔ)義識(shí)別
離線語(yǔ)音芯片其實(shí)在業(yè)內(nèi)的名稱叫語(yǔ)音識(shí)別芯片,語(yǔ)義識(shí)別也是影響識(shí)別率非常重要的因素之一,離線語(yǔ)音芯片最常用的特征是MFCC(梅爾頻率倒譜系數(shù)),其設(shè)計(jì)靈感源于人耳的聽覺特性(人耳對(duì)不同頻率的敏感度不同,對(duì)中低頻更敏感)。過程如下
將每幀時(shí)域語(yǔ)音信號(hào)轉(zhuǎn)換為頻域信號(hào),得到各頻率成分的能量分布(傅里葉變換)
用一組模擬人耳聽覺特性的 “梅爾濾波器” 對(duì)頻域信號(hào)濾波,保留人耳敏感的頻率成分,剔除不敏感成分(梅爾濾波組)

對(duì)濾波后的能量值取對(duì)數(shù)(模擬人耳對(duì)聲音強(qiáng)度的對(duì)數(shù)感知),再通過 DCT 壓縮數(shù)據(jù),最終得到 12-16 維的MFCC
特征向量(每幀語(yǔ)音對(duì)應(yīng)一個(gè)特征向量,數(shù)據(jù)量大幅減少)【對(duì)數(shù)與離散余弦變換(DCT)】。
除 MFCC 外,部分芯片也會(huì)用LPCC(線性預(yù)測(cè)倒譜系數(shù))(基于語(yǔ)音的線性預(yù)測(cè)模型,計(jì)算量更小,適合低功耗場(chǎng)景)。
4.指令判斷
因?yàn)槎鄶?shù)離線語(yǔ)音芯片的一大優(yōu)勢(shì)就是響應(yīng)快,但是受困于成本能夠在市面上普及的離線語(yǔ)音大多數(shù)價(jià)格都比較親民,成本限制了離線語(yǔ)音芯片的端側(cè)算力,所以這幾年的主流方案都是采用
CNN、RNN、Transformer 的輕量化版本 Tiny Transformer的模型,模型參數(shù)被壓縮到幾十 KB - 幾 MB(適配芯片存儲(chǔ)),通過本地
NPU/DSP 快速運(yùn)算,輸出 “是否匹配某指令” 的概率(如概率>90% 則判定識(shí)別成功。
5.指令執(zhí)行
這一步就最簡(jiǎn)單了,指令識(shí)別成功以后可以通過通信的方式發(fā)給MCU,然后MCU驅(qū)動(dòng)響應(yīng)的功能打開。
以上這就是離線語(yǔ)音芯片的工作原理,離線語(yǔ)音芯片的特點(diǎn)是響應(yīng)快,安全性高(不聯(lián)網(wǎng)不用擔(dān)心信息泄露)。
而在線語(yǔ)音芯片的工作原理是類似的,區(qū)別在于在線語(yǔ)音芯片可以通過云端算力來輔助識(shí)別,識(shí)別率會(huì)更高,同時(shí)可以接入大模型有更豐富的內(nèi)容可以輸出,但是缺點(diǎn)也比較明顯因?yàn)樾枰蟼餍畔⒌椒?wù)器并且等待大模型響應(yīng)并返回,即便是使用流式傳輸也會(huì)有一定的延遲。
但是在線語(yǔ)音芯片+大模型這種方式,雖然在響應(yīng)上比離線語(yǔ)音芯片多一些延遲,但是可以進(jìn)行更豐富的玩法,比如給玩具賦能讓玩具可以和孩子說話,讓寶貝不再孤單,也可以接入自己設(shè)計(jì)的智能體充當(dāng)語(yǔ)音說明書
,適合一些共享設(shè)備。

其實(shí)還有一款離在線語(yǔ)音芯片,這款芯片及支持離線使用也支持在線使用,完美的契合了兩者的優(yōu)點(diǎn),目前主要面向需要AI對(duì)話的產(chǎn)品,為機(jī)器人、Ai玩具等產(chǎn)品賦予語(yǔ)音控制和開口說話的能力。
總結(jié):離線語(yǔ)音芯片和在線語(yǔ)音芯片各有優(yōu)劣,離在線語(yǔ)音芯片也很強(qiáng),但是各自都有各自的使用場(chǎng)景,離線語(yǔ)音芯片你可以理解為語(yǔ)音遙控器或者聲控芯片,而在線語(yǔ)音芯片你可以理解為AI對(duì)話芯片AI交互芯片,離在線語(yǔ)音芯片則是兼顧了遙控器和AI對(duì)話功能的完全體。