騰訊會議天籟實驗室用AI助聽障人群聽得更清晰
肖瑋(右三)和他的團隊。
肖瑋是騰訊會議天籟實驗室的音頻算法工程師。他為騰訊會議等網上會議工具開發的算法可以增強即時、端到端的數碼通訊效果。
肖瑋和他的團隊相信騰訊會議背後先進的會議技術能為世界各地的人們帶來便利,人們可以在疫情期間繼續工作和溝通。
經過調查研究,他們更發現音訊質量的改善和降噪效果可以為聽障人群提供幫助,而這正好是騰訊「科技向善」使命的最佳實踐。
你的身邊可能就有聽障人士
根據世界衛生組織統計,全球有15億人聽力受損,到2050年,這個數目預計會增加至25億,其中至少有七億人需要復康服務。
聽障可能會帶來嚴重後果,影響聽障人士的學習和發展、就業、人際關係、社會活動參與等等,也可以導致感到孤獨、被孤立等心理健康問題。
幸好,聽障可以通過輔聽技術來緩減,例如使用助聽器或人工耳蝸。
聽障去污名化,鼓勵早期檢測
如果你有近視或遠視,一般很早就會被發現,能夠透過佩戴眼鏡來矯正視力。然而佩戴助聽器會讓人感到尷尬,因為這常被人視為一種身體障礙。
改變這種觀念需要時間和宣傳教育活動的配合,與此同時,騰訊會議天籟實驗室與中國國家耳鼻咽喉疾病臨床醫學研究中心發布了一款簡單的網上測聽工具。該工具融合了中國十二生肖的元素,可基於噪音場景下的言語可懂度測試方法,幫助用戶快速初步評估和掌握自身的聽力健康情況。
善用AI音效幫助聽障人群
肖瑋和騰訊會議天籟實驗室的同事最初使用通訊科技幫助聽障人群時,曾盡力消除或減低背景噪音。然而,測試用戶的反饋表明,過度抑制噪聲反而降低了語音的可懂度。
有一天,肖瑋跟一位專家聊天時,對方提醒他,從聽力學的角度來說,語音的可懂度是最重要的。他突然意識到,「聽障人士想聽到的是語音。我們要做的不是對抗噪音,而是必須保留語音結構,保留好用戶想感知的聲音成分。」
工程師們借鑑騰訊會議使用的AI增強技術和深度學習模型,設計了新的方法,在降噪之前先努力保留語音成份,可以有效提升噪音場景下的語音可懂度。
騰訊天籟實驗室的研究員正在採集室外噪音。
借助智能手機駕馭AI音效
智能手機已經成為AI音訊技術的重要組成部分。它們對於捕捉和處理聲音至關重要,也能通過藍牙將聲音傳輸到聽力設備,例如人工耳蝸或助聽器。
對於肖瑋來說,難度在於設計算法,根據環境和用戶的聽力,增強或降低噪音。他把這比作「為近視者提供度數合適的鏡片」。現在,聽障人士可以使用一款App來設置個人化的降噪或語音增強程度,獲得最貼近個人需要的輔聽效果,即使專業醫生不在場亦能輕鬆單獨完成設定。
騰訊會議天籟實驗室還為輕度聽損人士找到了經濟實惠的解決方案,他們只需使用耳機,不需要定製耳蝸或助聽器。例如,當他們在課室或演講廳,可以把智能手機放在講員附近的桌子上。借助一款免費App,手機可以捕捉和處理語音,然後通過藍牙傳輸到用戶的耳機。與此同時,App上也可以即時顯示字幕,幫助聽障用戶理解內容。
以長者為優先考量
長者是深受聽障問題影響的群體,全球65歲以上人士有三分之一存在至少中度的聽力受損,且問題一般會隨着年齡增長而惡化。研究顯示聽障問題與失智和抑鬱相關。
為了評估音訊技術在現實生活中的應用效果,肖瑋和團隊成員會去菜市場等嘈雜的地方實地評估。這天,他們觀察了一位婆婆如何使用App來與商販交談,這個App是利用騰訊會議天籟實驗室的音訊技術開發的。App能處理商販說的話,然後轉換成字體較大的文字顯示在智能手機上。
同樣,長者若想跟親朋好友們通電話,只要接聽電話就會自動啟動一個微信小程序,長者可以一邊聽電話,一邊看到手機屏幕上顯示的字幕。在這種場景下,字幕輔聽和聲音輔聽一起發揮作用。
跨行業協作找到問題的解決方案
跨行業協作是騰訊天籟實驗室的核心工作。實驗室的工程師經常與不同行業的專家聯絡,這些專家會請他們協助解決難題。設備製造商也經常向騰訊天籟實驗室尋求技術支持。憑藉強大的AI音頻算法和深度學習能力,騰訊天籟實驗室團隊充分發揮這項技術的潛力,賦能合作方實現突破。
「將算法技術有效地應用於另一個專業領域並非易事。」肖瑋說,「這有賴於堅實的技術基礎,技術人員對新應用領域的敏感度,以及打通技術和應用之間的連接點。最重要的是,你需要從對方的角度來理解問題,保持開放的心態。」