技術(shù)引領(lǐng)未來,守護美好生活
1.基本概念
愛人的氣息是從不失職的溫柔路標(biāo),我們總能夠在一群人中一眼看到自己的愛人;同樣,愛人的聲音也總是那么獨特,在鼎沸的人聲中那么清晰。聽到TA的聲音后,其他一切聲音都已經(jīng)被屏蔽了,一聲入耳,再無其他。
這就是人所謂的定向拾音的能力,當(dāng)然這個比方不那么恰當(dāng)。實際上這是經(jīng)常聽說的“雞尾酒會效應(yīng)”,指的是人能夠在復(fù)雜的升學(xué)環(huán)境中將注意力集中到某個人身上,并且忽略掉背景噪聲和其他人的聲音。這是人的聽覺選擇能力,涉及到雙耳結(jié)構(gòu)以及復(fù)雜的大腦處理機制。
2.實現(xiàn)原理和方式
目前,利用麥克風(fēng)模擬這種定向拾音能力,已經(jīng)有了一定的成果。從實現(xiàn)方式上來看,可以分為單通道麥克風(fēng)和多通道麥克風(fēng)(麥克風(fēng)陣列)兩種方式。
2.1 單通道麥克風(fēng)
利用單通道麥克風(fēng)實現(xiàn)定向拾音,指的是采用單指向性麥克風(fēng)拾取單一方向聲音。麥克風(fēng)的指向性指的是麥克風(fēng)從指定方向拾取聲音,包括心型、超心型、全向星和8字型等拾音模式。
2.1.1 心型模式
拾音模式一個心型的圖案,通常被用在工作室錄制人聲中,是歌手較喜歡的麥克風(fēng)。適用于不想拾取觀眾的聲音或者從監(jiān)控器中傳出的聲音。在工作室中,使用心型麥克風(fēng)可以有效的降低環(huán)繞聲和麥克風(fēng)反射回來的聲音。拾音模式如圖1所示。理論上說,這種心型模式的拾音前后比可達到20dB以上,實際測試結(jié)果顯示,常見的信心模式麥克風(fēng)能達到10dB已經(jīng)是很好的表現(xiàn)了。
圖1 心型拾音模式
這種指向性的麥克風(fēng)的拾音模式如圖2所示,在舞臺上它們能夠更好的收錄主唱的聲音,并且阻擋周圍樂隊的聲音,其缺點是也會收錄一些麥克風(fēng)后面的聲音。這就意味不應(yīng)該將你的監(jiān)聽音箱放在面前(一般情況下120或者240度的位置較好)。超心型話筒的指向性比心型更窄,特別適合近距離拾音。
圖2 超心型模式
2.1.3 全向型模式
這就是常見的無指向性麥克風(fēng),對所有角度都有相同的靈敏度,這意味著它可以從所有方向均衡地拾取聲音。這種麥克風(fēng)完全沒有指向性,不能用于定向拾音的場合。
圖3 全向型模式
2.1.4 8字型模式
顧名思義,8字型麥克風(fēng)的拾音形狀類似數(shù)字8,也叫雙心型麥克風(fēng)或也被叫做是雙指向形,它們通常被用在工作室而不是現(xiàn)場,而且大部分此類麥克風(fēng)都是鋁帶式麥克風(fēng)。它們從前方和后發(fā)拾取聲音,而不是從兩側(cè)。這種是在正面和背面較靈敏左右測不夠靈敏,因為這種指向類型的話筒對來自話筒正前方和正后方的音頻信號具有同樣高的靈敏度,但是對來自話筒側(cè)面的信號不太敏感。
圖4 8字型拾音模式
采用單通道麥克風(fēng)實現(xiàn)定向拾音,可以實現(xiàn)一定程度上的定向效果,但對其他方向上的干擾抑制能力是遠(yuǎn)遠(yuǎn)不夠的。我們只想聽到TA的聲音,但這種單指向性的麥克風(fēng)做不到這一點,第三者、第四者乃至更多的聲音都會不可避免地泄漏進來。因此,需要采用更好的設(shè)計方案,即多通道麥克風(fēng)(麥克風(fēng)陣列)方案,實現(xiàn)更好的定向拾音效果。
2.2 麥克風(fēng)陣列方案
麥克風(fēng)陣列是由按照特定的拓?fù)浣Y(jié)構(gòu)分布在空間的多個麥克風(fēng)組合而成。與單個麥克風(fēng)相同,麥克風(fēng)陣列為一個整體,仍然可以看作一個復(fù)雜的傳感器,作為聲音與拾音系統(tǒng)的接口模塊;但不同的是,麥克風(fēng)陣列不但可以獲得聲音信號的時域信息還可以獲得空域信息。麥克風(fēng)陣列信號處理的主要目標(biāo)是盡可能地利用空時信息來提高接收端信號的質(zhì)量。
在使用麥克風(fēng)陣列對語音信號進行處理的發(fā)展歷程中,產(chǎn)生了許多陣列結(jié)構(gòu),包括結(jié)構(gòu)相對簡單的直線陣列、平面陣列以及復(fù)雜的三維球陣列。圖5給出了N個麥克風(fēng)等間距直線陣列的模型,θ為聲源的方位角。
圖5 直線陣列模型
在定向拾音中,直線陣列是較常見的結(jié)構(gòu)。對應(yīng)兩種拾音模式:端射和寬邊模式。簡單地說,端射模式的拾取方向是陣列軸線方向,而寬邊模式拾取的方式是與陣列軸線垂直的方向。
2.2.1 端射模式
較常見的端射模式實現(xiàn)方式為微分麥克風(fēng)陣列,有時候也稱為差分麥克風(fēng)陣列。差分陣列表現(xiàn)的是空間聲壓的差異性,聲壓的一階差分可以由兩個相近放置的全向麥克風(fēng)輸出相減得到,同理,N個麥克風(fēng)可以獲得聲壓的N-1階差分。
下面以圖6所示的兩麥克風(fēng)組成的差分陣列為例,介紹差分陣列的定向拾音模式的設(shè)計思路。兩麥克風(fēng)組成的差分陣列,對應(yīng)的是階次為1,有兩個設(shè)計約束條件:
1.在目標(biāo)方向無失真(θ=0°時,拾音增益為1);
2.在0°<θ≤180°的范圍內(nèi)存在一個零陷。
圖6 一階差分陣列
令表示麥克風(fēng)陣列的導(dǎo)向矢量,以圖6所示的陣列為例,導(dǎo)向矢量為
其中,ω表示角頻率(rad/s),δ表示麥克風(fēng)之間的間距(m),c表示聲速(一般為343m/s),τ0(s)表示聲音在兩個麥克風(fēng)之間的傳播時間差。
設(shè)計目標(biāo)就是為兩個麥克風(fēng)選擇合適的權(quán)重,滿足上面的兩個約束條件,即
θ1表示零陷所在的角度,決定了拾音模式。θ1=90°時,對應(yīng)8字型模式;θ1=180°時,對應(yīng)心型模式;θ1在(90°,180°)范圍時,對應(yīng)超心型模式。
以心型模式為例,可求解得到權(quán)重h(ω):
對取泰勒近似,可將上式近似改寫為
觀察上述公式可以看出,實際上是將麥克風(fēng)2的信號滯后并與麥克風(fēng)1的信號相減之后,再進行一個低通濾波的結(jié)果。顯然,差分麥克風(fēng)陣列體現(xiàn)的是一種“延遲相減”的思路,將不希望拾取的信號通過相減的方式抵消掉。
GSC方法由兩條支路組成,如圖7所示,上面的支路固定波束形成器(Fixed Beamformer,F(xiàn)BF)支路,一般由DSB算法實現(xiàn),用以增強目標(biāo)方向信號,抑制其他方向的干擾;下面一條支路由阻塞矩陣(Blocking Matrix,BM)和自適應(yīng)干擾抵消器(Adaptive Interference Canceler,AIC)兩部分組成,阻塞矩陣用以獲得目標(biāo)信號零陷位置的參考噪音信號,該信號與DSB輸出中的噪音信號相關(guān),自適應(yīng)干擾抵消器利用該參考噪音信號估計DSB輸出中的噪音信號,并從DSB輸出信號中減去該估計信號,得到波束形成輸出信號。
圖7 GSC算法結(jié)構(gòu)
在二元麥克風(fēng)小陣列中,由于兩個陣元間距較小,它們的脈沖響應(yīng)函數(shù)可以近似的認(rèn)為是相等的或者其差別可以忽略不計。由圖6可知,第二個麥克風(fēng)相對于第一個麥克風(fēng)的目標(biāo)信號相位差為,DSB方法就是對兩路麥克風(fēng)信號進行時間上的對齊(即頻域的相位補償),對應(yīng)DSB輸出為:
其中,Y1和Y2分別表示兩路信號頻域轉(zhuǎn)換后的結(jié)果。
阻塞矩陣BM按照如下方式定義:
由此可見,理論上說,F(xiàn)BF支路的輸出是指定方向上的信號;而BM支路輸出的是抵消了指定方向信號之后的純噪聲信號。從指定方向上的信號減去噪聲信號,就是加強了的指定方向上的信號,從而實現(xiàn)定向拾音。
計算語音存在先驗概率:
其中,表示頻點k所對應(yīng)的相位差,即
符號表示取相位。需要注意的,相位差需要解卷繞到(-π,π]的區(qū)間中。表示相位差閾值,fs表示采樣頻率(Hz)。
考慮到相鄰頻點之間存在高度的相關(guān)性,因此,可以對相鄰頻點的語音存在概率進行平滑,提高頻率計算結(jié)果的準(zhǔn)確性和相鄰幀之間結(jié)果的連續(xù)性。平滑后的各頻點語音存在先驗概率如下所示:
其中,w(i),i=0,1,...,I-1表示Gammatone濾波器系數(shù),I為Gammatone通道的數(shù)量,典型值為I=20或40等,根據(jù)具體需求而定。按照下式進行計算:
其中,表示兩路通道的信號均值。Hi(k),i=0,1,...,I-1表示Gammatone濾波器曲線的采樣值。
計算后驗信噪比:
求語音存在的先驗概率的均值,以此作為判斷單幀信號是否存在語音的一個標(biāo)識:
其中,kmax和kmin分別表示最大頻點和最小頻點對應(yīng)的序號??紤]到語音信號在低頻范圍內(nèi)方向性不夠明顯,kmin的取值應(yīng)該保證對應(yīng)的頻率在1kHz左右;kmax的取值與兩個麥克風(fēng)的間距d有關(guān),通常需要保證對應(yīng)的頻率最高不超過4kHz。
求語音不存在后驗概率q(k):
其中,表示先驗概率均值的閾值,與拾音范圍角度的大小有關(guān)系,當(dāng)確定了拾音范圍角度之后,方可確定這個閾值。表示后驗信噪比的最大值,取4~5之間的值,可取得較好的調(diào)試結(jié)果。
計算處理后的語音:
進行傅里葉反變換,可得處理后的時域信號z(n),即定向拾音的結(jié)果:
3.應(yīng)用
定向拾音技術(shù)的應(yīng)用比較廣泛,較常見的應(yīng)用場合是本地擴聲。在本地擴聲中,由于定向拾音技術(shù)可以壓制某個方向上的聲音,因此可以將播音設(shè)備放置在這個方向,能夠很大程度上抑制可能發(fā)生的嘯叫,從而解決困擾本地擴聲的較大問題之一,在教室、會場等擴聲場景中都有很大的應(yīng)用潛力。此外,該技術(shù)在存在角色分離錄音要求的場合也都有潛在的應(yīng)用空間。
全國統(tǒng)一服務(wù)熱線