聽障人士的福音:阿里聯手美國學院推出AI唇語解讀新方法
發布時間:2019-12-12自從馬云從阿里巴巴退休后,很多人都說沒有馬云的阿里巴巴可能發展勢頭沒有以前那樣猛了,盡管他們擁有近乎完美的“傳承計劃”執行者。
這就好比失去喬布斯的蘋果一樣,雖然庫克接手后,蘋果業績一路上升,甚至成為全球第一家市值破萬億的科技公司。但對廣大蘋果用戶來說,沒有喬布斯的蘋果已經失去了引人品嘗的魅力,此后只是成為了一種能賺錢的貨物而已。
可似乎人們都忘記了,創始人也會有力不從心的那一天,如果想讓企業能在新時代的競爭中力爭上游,勢必要靠更有活力的年輕人開辟出一條新路來。
畢竟這個世界不管少了誰地球都照樣轉,同樣,阿里巴巴沒有馬云指點江山也能照樣運營得很好。
因為阿里巴巴在很早時候就創建了合伙人機制,以此來解決規模公司的創新力問題、領導人傳承問題、未來擔當力問題和文化傳承問題,以制度和人、文化的完美結合,讓公司得以健康持續發展。
而且按照阿里巴巴內部流傳的說法,馬云指定的接班人張勇是“在高速路上換引擎的人,而且把拖拉機換成了波音747”。
可能很多消費者不知道,張勇在很多方面上改變了阿里巴巴。他先是重新設計了淘寶的商業模式,隨后又舉全集團之力使手機淘寶成為世界上最大的移動電商平臺。
從移動互聯到萬物互聯、從商業公司到科技公司、從平臺到經濟體,可以說是張勇奠定了阿里巴巴從PC端向移動互聯變遷的最重要基礎。
如今阿里巴巴正邁入智能時代,張勇也正帶領阿里巴巴集團一起進行更多、更深層面的變革,并系統性布局人工智能領域,搶占萬億級市場藍海。
當然,即使張勇再牛,也不可能事事都親力親為。阿里巴巴有那么多部門,旗下又有如此之多的得力干將,會投資、合作的更不在少數,每個人擅長的領域或許不一樣,但只要方向一致就能把一件事給做好。
比如2017年阿里巴巴和浙江大學簽署戰略合作協議后成立的“阿里巴巴-浙江大學前沿技術聯合研究中心”(簡稱AZFT)。該研究中心向全球招募研究人員,計劃攻克面向未來20年的核心科技,同時又在人工智能、泛在信息安全、無障礙感知互聯等前沿技術領域開展研究合作。
說起來,AZFT在最近有個比較公益性的研究,倒是讓不少特殊人群極為關注。
有多特殊呢?我們接著往下看。
上周12月5日有媒體報道,AZFT和美國斯蒂文斯理工學院(Stevens Institute of Technology)的研究人員推出了一種提升人工智能閱讀唇語準確率的方法——“Lip by Speech(LIBS)”,以幫助那些聽力不好的人觀看沒有字幕的視頻。
據悉,該方法利用視頻中的語音信息作為輔助線索,減少了人工智能對視頻中無關幀的關注,使其注意力更加集中。研究人員表示,使用該方法的人工智能在兩個唇語閱讀基準測試中,字符錯誤率分別降低了7.66%和2.75%。
當前,視頻已經成為網民獲取信息的重要媒介,然而對于聽障人士來說,獲取多媒體內容的語音信息時卻存在著極大的困難??梢哉f,LIBS為視頻提供相應的字幕將極大方便聽障人士獲取語音信息對應的內容。
那么這種研究是否符合聽障人的期待呢?蝸牛納拜托一個朋友在她們聽障群里進行簡單的采訪。
這幾位聽障朋友認為此類研究是很有必要的,可以幫助他們在有嗓音的環境下正確理解對方要表達的意思。
實際上,能夠從視頻中讀唇語的AI和機器學習算法并不是阿里巴巴他們最早研發出來的。
2016年,谷歌和牛津大學的研究人員曾介紹過一種系統,該系統可以以46.8%的精度注釋視頻素材,優于專業讀唇語人員12.4%的精度。
但是,即使是最先進的系統也難以解決唇部運動的“一語多義”問題,因而導致唇語識別的準確率一直無法超越語音識別。
后來在2017年,搜狗推出了全新的人機交互新技術——唇語識別,是業內首個公開演示的唇語識別系統,能夠通過機器視覺識別,不用聽聲音,僅靠識別說話人唇部動作,就能解讀說話者所說的內容。
按照搜狗方面提供的數據顯示,在非特定人開放口語測試集上,搜狗唇語識別系統已經達到60%以上的準確率,超過google發布的英文唇語系統50%以上的準確率,在垂直場景如車載、智能家居等場景下甚至已經達到90%的準確率。
而在業內大多數唇語識別技術實用性尚待考證的環境下,搜狗成功完成了業內首個中文唇語識別系統的公開演示。
如上圖所示,搜狗的唇語識別技術還能發揮巨大的公益價值,可以幫助先天性聽障人群或老年人,讓他們更好地理解和表達自己。
搜狗有無在唇語識別方面申請專利呢?自然是有的。
“一種唇部狀態檢測方法及裝置”專利就是搜狗申請的。
該方法包括:對目標圖像進行唇部區域檢測,獲取所述目標圖像包括的唇部區域圖像;確定所述唇部區域圖像的多個關鍵特征點;根據所述多個關鍵特征點對應的特征值確定所述唇部區域的狀態;所述唇部區域的狀態包括開口狀態或者閉口狀態。本發明實施例可以有效檢測唇部區域狀態,識別準確性高,成本低,并能有效去除靜音幀等噪聲數據對唇語識別結果的影響,減少干擾,提高數據處理效率。
不過現在還是有越來越多的智能音響喜歡應用到語音識別,目前智能設備的語音交互方式基本上使用的是基于語音喚醒詞的語音交互。
就拿最近中國科學院權威測評報告中,在自然語言理解上的技術能力具有顯著優勢、也最能聽懂用戶的小度智能音箱來說吧。相信很多家庭都很喜歡這種智能音箱,只要說出命令詞語就可以讓小度幫你做一些事情。
然而,對于不喜歡頻頻沖著音響重復命令詞語的用戶,以及口不能言或發音不標準的聽障人來說,小度實在是個不太人性化的智能設備。
但這一問題已于2018年得到了解決,百度申請了一項名為“基于唇語的語音喚醒方法、裝置及計算機可讀介質”的發明專利。
該專利包括以下步驟:采集用戶的嘴唇變化圖像;判斷用戶的嘴唇變化圖像是否與預設變化圖像相匹配;當用戶的嘴唇變化圖像與預設變化圖像相匹配時,喚醒語音交互功能。
也就是說,用戶可以在不需要說出明確喚醒詞的情況下喚起智能語音交互設備。這讓語音喚醒更加智能,也更方便用戶與語音設備的交互。
除了阿里巴巴、搜狗、百度等公司在發明語音+唇語方面的人工智能技術以外,不少公司也紛紛投入相關領域的研究中,企圖為聽力不太好的群體做些什么。
例如“帶有唇語識別功能的手機”,該實用新型專利可通過手機的前置攝像頭模塊是數據采集模塊,通過攝像頭來采集面部肌肉特征,和口型特征,然后轉換成數據和數據庫中采集的數據進行比較得到唇語的內容,大大方便了失去說話能力的用戶。
還有涉及了視聽轉換設備技術領域的“一種便攜式唇語識別器”。在其工作時,攝像頭捕捉嘴唇發音動作,并將信號輸入唇語識別芯片,唇語識別芯片識別出發音內容,分別轉換成聲音信號通過喇叭發出聲音,或者轉換成文字信號通過顯示屏顯示,從而使使用者獲取相關信息,使他們的交流順利進行。
“一種唇語識別方法、裝置、系統和智能眼鏡”。該技術方案可以解決聽力辨別力差人員的溝通問題;可以解決遠距離溝通問題,例如在國外有部分海事人員有專業訓練唇語來判斷別的船或是岸上的人所說的話;可以用于高空作業、軍事等,方便信息的及時傳遞和反饋。
諸如此類的還有很多,都能夠幫助聽障人毫無壓力地了解別人表達的內容。
這樣的發明越多越好,畢竟將來不光是聽障人,就連成年后因各種意外或年老導致聽力情況不太好的群體,也會非常需要此類技術。
據世衛組織的統計數據,目前全球殘疾性聽力損失患者人數約4.66億,約占全球人口的5%以上。據估計,到2050年,全球將有超過9億人存在殘疾性聽力損失。
盡管目前我國的AI唇語識別準確率還有待進一步的提升,但蝸牛納相信國內外科技企業必定會在該領域有更多新的突破。
畢竟此次阿里巴巴與國外高校合作推出的LIBS方法,已經為視頻語音相結合的領域提供了一種新的研究思路,未來能夠讓聽障人士在嘈雜環境下借助語音+唇語識別的輔助進行無障礙交流。
——END——
編輯:蝸牛納@北京納杰專利申請代理機構
本文地址:http://www.lojaarquibancada.com/a/zlsb/5593.html
相關閱讀: