亞洲大學聽力暨語言治療學系助理教授 田輝勣
什麼是人工智能?
人工智能(AI)一般指電腦應用程式執行多維智能解決方案來解決複雜問題。例如處理大量信息時,透過遵循或推斷規則,對輸入的信息作出最適當的反應。由星球大戰電影中的「R2D2」和「C3P0」機器人迄今,AI大量應用於人類生活中,從導航系統到自動駕駛,人工智能已經幾乎無所不在。超越人腦迅速處理大量數據的運算能力應用,能夠協助人類生活更便利,更有效率。
AI和助聽器沿革
從1996年數位技術應用於助聽科技後,利用大量快速運算的優勢,進行分頻增益及降噪,讓小小的助聽器,發揮類似專業錄音室內「數位等化器」(digital equalizer”的功能。助聽器正式脫離類比(analog)技術,進入全數位平台時代。人類聽覺最重要的換能器,就是把聲波轉換為神經電波的關鍵—耳蝸,在物理學上,也就是一個聲學的分頻器。90%的聽力障礙病變就是在耳蝸科蒂氏器內負責不同頻率區域毛細胞的損害。換言之,每個不同的頻率會有不同的閾值。因此,聽力師選配助聽器時,只要把不同的頻率的閾值輸入選配軟體,就可以讓助聽器接收的聲音訊號,依照頻率進行不同的增益幅度,讓聽障者能夠聽見所有頻率的聲音。
然而,我們進行聽力檢查時,畢竟是在隔音室內相對安靜的環境下進行閾值的偵測。離開聽力隔音室,要面對的是日常環境中來自不同方向、不同強度、不同意義的聲音。其中我們要聽的就是「信號」(signals),不要聽的就是「噪音」 (noise)。進入數位平台的助聽科技研究人員,莫不絞盡腦汁期望提高「信噪比」(signal-to-noise ratio; SNR)。因為助聽器不是只有「聽不到」的問題,絕大多數都有「聽不清楚」的問題,尤其是在不同的噪音環境,必須維持一定的SNR,否則聽到的聲音也難以辨別與理解。要增加SNR,最重要的先決條件就是分辨甚麼是信號,什麼是噪音。就人腦而言,這個決定只是一念之間。舉例而言,與朋友聊天時,朋友講的語音是信號,四周其他聲音是噪音;突然心儀的對象出現在周遭時,他(他)和其他人講的語音就變成信號,原來對話朋友的語音秒變噪音。這種聽覺「變焦」或「對焦」的功能,就是外毛細胞的傑出功能。外毛細胞數量約三倍於真正負責聽覺信號輸入的內毛細胞。它的功能不是負責聽覺信號的輸入,而是調節信號的精細分頻與音量調整。它可以遵循中樞系統的指令,調整讓想聽的信號增加,不想聽的噪音降低,同時利用雙耳聆聽,判斷信號聲源定位並加以追蹤,也就是所謂的「聽覺動態變焦」。
Pearsons在1977年進行的經典研究(Pearson,Bennett&Fidell,1977)提供各種日常聽力情況下典型語音和SNR的數據。隨著聲學環境惡化,典型的SNR變差,清楚識別語音的機會減少。一般來說,聽力受損的人在SNR為+14到+30 dB時感覺聲音最佳。換句話說,信號需要比競爭背景噪聲大得很多,聽眾才能以最大清晰度感知語音。Walden(2003)研究發現聽障者在發話者在近距離的前方,而噪音來自其他位置時,才會偏向使用”方向性麥克風”功能,而不是只要有噪音存在時,就開啟方向性麥克風。方向性麥克風功能就是利用收音時,同時判別音源的方向,在計算增益時,放大前方的音源增益,而減少其他方向音源增益。在人工智能應用在助聽科技前,包括噪音辨識與阻斷、不同噪音環境程式設定、自動低頻降噪以及動態方向性設定,幾乎已達到聲學科技的巔峰。然而,諸多先進科技存於一身的高階助聽器,卻留給選配人員極大災難性的難題,「到底該如何設定這些參數?」
為何助聽器需要人工智能?
鑑於現實聲學環境的複雜,無法單純使用「安靜」或「嘈雜」來區分複雜,相關且不斷變化的聲學特性。預測性的信號處理方法聽器技術。對於輸入信號測量, 對其做出假設,參與算法並進行預測。雖然是合理,並且在某些條件下(如寬動態範圍壓縮)中運行良好,但是在許多聲學情況下,這種單維預測無法反映聲學環境的真實複雜性。
人工智能準確評估講話者在空間中與助聽器麥克風相關的位置、語音響度級別,空間中噪音位置,級別和頻譜內容,以及室內混響量等因素,進行複雜的分析,並根據是否滿足特定的性能目標來調整其性能,更有可能滿足用戶的需求。結合了最先進的自適應方向性,噪音管理和寬動態範圍壓縮系統協同工作,逐步優化語音信號。它對聲音環境進行準確的多維評估,並將放大策略改變符合特定環境中接收語音的最佳策略。主動檢測是否存在噪音?是否存在語音?語音來自哪個方向?整體響度以及是否存在風切噪音而調整設置。再利用統計方法,分析大量數據以找到模式和一般性。這被稱為”機器學習”,並形成「模糊邏輯」和「神經網絡」概念的基礎。規則一開始並不明確。相反,系統推導出規則作為數據分析的輸出。近年來推出的人工智能助聽器更結合手機app軟體,紀錄個案不同聆聽習慣與聲學環境,並開放許多以個案主觀感覺而非專業術語的調整功能,加以記錄與配對。分析出個案在不同環境中,不同的聆聽設定。經由機器學習,類似自動駕駛系統模擬駕駛人在不同情形下的不同策略決定(如加速、煞車或超車),讓助聽科技真正做到「量身定做」的理想,同時經由大數據的資料分析來開發未來更適用的解決方案。
結論:
人工智能在助聽科技的應用,正是某手機廣告語「科技始終來自於人性」的最佳寫照。通過多維紀錄分析聲學環境,採用複雜運算分析,提供最佳化的信噪比,同時監測反應,並即時回饋的數位信號處理概念,將複雜的決策交給人工智能,可以隨時為任何情況選擇最佳的處理方法,期待讓聽損者更容易達到「聽得見、聽清楚、聽理解」的目標。