手語數字人
截至2020年,中國聽力殘障人士已達到2700萬。而目前,以電視、電腦、手機為載體的各類新聞資訊、文娛節目,作為聽障人士的第一語音的手語的協助缺乏嚴重。2021年,國家發展改革委、國家廣播電視總局等21部門聯合發布關于印發《“十四五”公共服務規劃》的通知,強調無障礙環境是城市文明標志之一。為了關愛聽障人士,營造濃厚的關懷氛圍,縣級以上人民政府及其有關部門發布重要政府信息和與殘疾人相關的信息,應當創造條件提供語音文字和手語提示等信息交流服務。
目前,市場上的電視節目絕大部分都沒有添加手語老師進行實時翻譯,因為真人手語翻譯有以下痛點:1.手語解說可懂度不到60%。2.不同手語老師翻譯的手語可能會包含不同的語義,具體表為手語表達與漢語表達語序不同:現有手語解說大多是按漢語正常語序編排,不符合自然手語的規范和聾人的表達習慣。3.省略詞匯不恰當,影響意思表達:手語中沒有虛詞和量詞,從漢語轉換為手語時需要刪減詞,但是不恰當的省略會導致意思理解上有很大偏差。4.手語要素的組成,不僅僅只有手部動作,現有手語解說的表情、口動不夠明顯,且窗口較小,導致非手控信息無法看清,嚴重影響聽障人群的理解。
廣播級手語數智人生產系統致力于打造首個聾人真正可懂的廣播級手語數智人,手語表達能力接近真人手語主播。其特點有以下幾點:1.語言體系準確翻譯:將健聽人語言準確翻譯轉化為聾人語言;2.面部表情唇動逼真:手語為畫面語言,結合面部表情及唇動,可以更好地理解手語;3.新詞熱詞快速適配:能夠快速補充新詞熱詞并上線,無需重復錄制;4.實時翻譯:通過音轉文、文字翻譯手語、手語疊加視頻,實現一個節目包含視頻、文字、語音、手語這幾大要素。
廣播級手語數智人生產系統采用ASR和OCR技術,即自動語音識別技術,是一種將人的語音轉換為文本的技術。其目標就是將人類語言中的詞匯內容轉換為計算機可讀的輸入。具體如下:
第一步,建立聲學模型。聲學模型的主流系統大多采用隱馬爾科夫模型進行建模。對于同一個詞,由于每個人的發音、語調、語速等都各不相同,為了能讓機器識別出更多的人,聲學模型建立過程中需要錄入大量的原始用戶聲音,提取出其中的特征進行處理,并建立聲學模型數據庫。在聲學訓練步驟當中估算出聲學模型的參數,再通過循環訓練和對齊相位。在這一步中,大數據的重要性就體現出來了。
第二步,建立語言模型。語言模型包括由識別語音命令構成的語法網絡或者由統計方法構成的語言模型。根據語言的客觀事實,進行語言抽象數學建模,這是一種對應關系。語言模型可以很好地調整聲學模型所得到的不合邏輯的詞,使得識別結果變得通順且正確,這對于自然語音的信息處理也有著重要的意義。
第三步,進行語音識別。前面兩步都是需要預先做好的,最終形成的數據庫將存儲在設備本地或者云端。而這一步則是實時的語音識別過程。先將用戶的語音輸入進行編碼和特征提取,再將提取到的特征拿到聲學模型庫中去匹配得到單個的單詞,然后再拿到語言模型庫中去查詢,就可以得到最匹配的詞了。該技術將轉換完成的文本輸入到手語翻譯引擎,再通過手語要素序列生成手控信息和非手控信息等,最終通過高精度模型驅動,生成超寫實手語數智人。合成的視頻如果更接近真人且感情表達豐富,那么觀眾會覺得這不是一個冷冰冰的機器,而是一個有感情的“人”,會更容易接受AI主播的存在,讓觀眾的注意力從AI主播身上,轉到新聞或電視節目的內容上。
使用場景:1.用于新聞或者賽事直播,實時生成手語視頻;2.大屏、電視劇、電影、新媒體節目后期制作,生成與之對應的手語視頻。
實施單位:重慶廣電實業發展有限責任公司
分享讓更多人看到