在很多行業(yè),對電話、無線電中的雙方通話以及密閉空間里的會議、競標(biāo)、宣判等場景的說話,都會錄音,存檔做記錄或證據(jù)。
在需要獲取并了解錄音的內(nèi)容時,就需要人工去回放查聽,但對于較多或時長較長的錄音文件勢必會占用大量時間,如果能利用計算機(jī)借助先進(jìn)的技術(shù)(ASR)代替人工自動處理,將會大大提高工作效率。
目前業(yè)內(nèi)可提供獨立部署的識別引擎,但價格昂貴且安裝繁瑣(需要廠家到現(xiàn)場去安裝,成本高昂)。另有公網(wǎng)上的云平臺識別引擎開發(fā)的系統(tǒng),但需要將私密數(shù)據(jù)提供給公共平臺,不適用有保密要求的用戶。
雨燕電子推出的內(nèi)網(wǎng)里部署的錄音文件自動語音識別(ASR,文字轉(zhuǎn)語音)解決方案解決了上述難題。
本系統(tǒng)不僅無縫銜接本司錄音系統(tǒng)生成的錄音文件,同樣適用于第三方錄音系統(tǒng)生成的錄音文件,提供一個安全、便捷、可靠、低成本的自動語音識別(語音轉(zhuǎn)文字)解決方案。
這有助于最終用戶能夠快速地掌握海量錄音文件的內(nèi)容,或者從中定位一些關(guān)鍵字詞,做后續(xù)處理。
實現(xiàn)方法和網(wǎng)絡(luò)結(jié)構(gòu)圖
在內(nèi)網(wǎng)部署一至多臺雨燕電子語音識別服務(wù)器;找一臺運(yùn)行windows系統(tǒng)的電腦,運(yùn)行雨燕電子或第三方生成的錄音文件提交識別軟件。
錄音文件提交識別軟件對接錄音系統(tǒng)的數(shù)據(jù)庫,從中獲取到錄音文件,自動提交給內(nèi)網(wǎng)的雨燕電子語音識別服務(wù)器,在得到識別結(jié)果的文字內(nèi)容后,寫回到數(shù)據(jù)庫對應(yīng)的記錄中。
圖 1.1 雨燕電子錄音文件自動語音識別(ASR,文字轉(zhuǎn)語音)網(wǎng)絡(luò)結(jié)構(gòu)圖
優(yōu)勢
◇ 保密性高。和其他使用云服務(wù)器上的識別引擎方案相比,本系統(tǒng)在內(nèi)網(wǎng)里運(yùn)行,錄音文件的數(shù)據(jù)是提交到內(nèi)網(wǎng)里所部署的 ASR 服務(wù)器進(jìn)行識別。無需連接外網(wǎng),不用擔(dān)心數(shù)據(jù)安全風(fēng)險。
◇ 錄音識別準(zhǔn)確率高。采用優(yōu)秀的開源識別引擎,在錄音沒有太大噪音的情況下,普通話常用語的識別準(zhǔn)確率能在 90%以上。
◇ 安裝簡單。將雨燕電子ASR 服務(wù)器發(fā)到現(xiàn)場后,只需配置其 IP 地址就能使用。雨燕電子錄音文件提交識別軟件是綠色免安裝版,只需拷貝到 windows 電腦上,配置幾個參數(shù),對接錄音系統(tǒng)數(shù)據(jù)庫后就能正常運(yùn)行。
◇ 成本可控。和外網(wǎng)云平臺識別方案一般按次數(shù)或者每年按套餐收費(fèi)不同,本系統(tǒng)一次性采購后,后續(xù)沒有額外費(fèi)用(設(shè)備損壞需要維修或者更換除外),不會因錄音文件的數(shù)量增多或者年限而增加費(fèi)用。
◇ 支持算力擴(kuò)展。系統(tǒng)支持多臺ASR服務(wù)器并發(fā)運(yùn)行。后期如果增加了更多的錄音通道,有更多的錄音文件需要識別,到時可以根據(jù)需要,再增加ASR服務(wù)器的數(shù)量。
◇ 可對接大部分錄音系統(tǒng)。采用數(shù)據(jù)庫對接方式,可配置對接的數(shù)據(jù)庫字段,除了支持本公司的錄音系統(tǒng)之外,還支持其它采用數(shù)據(jù)庫方式的第三方錄音系統(tǒng)。
關(guān)鍵參數(shù)
● 支持對普通話和英文的錄音文件進(jìn)行識別。
● 支持常見的錄音文件格式,包括 wav 和 mp3 等。
● 單個錄音文件最大可支持 80M 字節(jié)。
● 識別得到的文字結(jié)果支持多語言,可以保存成簡體中文、繁體中文和英文。
● 識別得到的文字結(jié)果支持采用 UTF-8 和GBK 這兩種字符集。

