语音技术知识点

Posted on 2020-02-19 | |

语音通讯相关知识点汇总

声音

人耳听力范围为20-20000hz,对应波长范围为17m到1.7cm.随着年龄增大,高频波容易首先丧失
声波可以表示为各种频率正弦波的叠加
A/D转换:analog-to-digital.将模拟信号转换为数字信号,是音频编码和传输的基础

PCM:pulse-code-modulation:将模拟信号表示为数字信号格式,非压缩数字音频.PCM的保真度通过两个属性决定,一个是采样率-即每秒钟采集多少个点,一个是位深,即每个点通过多少位来表示.

CD的采样率为44100Hz,16bit位深
电话系统例如PSTN也大规模使用PCM技术
在电脑上,PCM和LPCM通常在WAV/AIFF等音频容器格式中保存
LPCM也作为HDMI传输数字信号的格式

通常LPCM的位深为8/16/20/24每个采样点.LPCM只编码一个声道,双声道是更常见的格式,最多可以支持8个声道.DVD的采样频率为48kHz,CD为44.1kHz

Nyquist–Shannon采样定理指明只有采样频率至少两倍于输入信号最大频率才可能不引起声音畸变,一般来说正常说话频率范围为300Hz-3400Hz,因此电话网络的采样频率为8kHz
编码:DPCM:用更少的位表达数据,比起PCM每个采样能够减少25%的位.电话系统中一般位8000个采样,8bit位深,位64kbit/s.压缩算法使用u-law或者a-law,标准为G.711
ADPCM的一种算法能够使线路容量翻倍,标准为G.726

Audio codec

通过压缩数字音频信号降低存储和带宽成本.一些算法通过Psychoacoustics(心理声学)降低人不敏感的声音的保真度来减少需要保存和传输的数据大小.

音频编码格式

注意常见的格式其实是容器格式,容器头可以保存一些文件名称等各种metadata,例如WAV中是PCM,m4a中音频格式为aac.mp3是个特例,既是容器格式也是编码格式

编码技术

MDCT:时域数据转换为频域数据,然后根据心理声学原理进行编码
LPC:线性预测编码,用于speech编码

考量标准一个是延时,一个是编解码效率,LPC通常延时小适用于电话系统,MP3的延时在23ms

声音比音乐的频宽要窄,应该会稍微简单一点

参考链接