音频基础知识和编码原则

1.基本概念

1）比特率：表示编码（压缩）的音频数据每秒需要表示多少比特，单位通常为kbps。

2) 响度和强度：声音的主观属性。响度表示声音听起来有多响亮。响度主要随声音的强度而变化，但也受频率的影响。一般而言，纯中频声音优于纯低频和高频声音。

3）采样和采样率：采样是将连续时间信号转换为离散数字信号。采样率是指每秒采集的样本数量。

奈奎斯特采样法则：当采样率大于或等于连续信号最高频率分量的2倍时，采样信号可用于完美地重建原始连续信号。

2.常见的音频格式

1）WAV格式是微软开发的一种声音文件格式，也叫波形声音文件。它是最早的数字音频格式，被Windows平台及其应用广泛支持，压缩率低。

2）MIDI是Musical Instrument Digital Interface的缩写，也称Musical Instrument Digital Interface，是数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器和其他电子设备交换音乐信号的方式，并规定了连接不同制造商的电子乐器到计算机的电缆与硬件和设备之间的数据传输协议，可以模拟多种音乐的声音。仪器。 MIDI 文件是 MIDI 格式的文件，一些命令存储在 MIDI 文件中。将这些指令发送到声卡，声卡会根据指令合成声音。

3）MP3的全称是MPEG-1 Audio Layer 3，1992年并入MPEG规范。MP3可以压缩音质高、采样率低的数字音频文件。最常见的应用。

4）MP3Pro由瑞典编码技术公司开发，包含两大技术：一是编码技术公司独有的解码技术，二是MP3专利持有人法国汤姆森多媒体公司与德国弗劳恩霍夫联合研发的解码技术由电路协会。 MP3Pro 可以在基本不改变文件大小的情况下，提高原始 MP3 音乐的音质。它可以在以较低比特率压缩音频文件的同时，最大程度地保持压缩前的音质。

5）MP3Pro由瑞典编码技术公司开发，包含两大技术：一是编码技术公司独有的解码技术，二是MP3专利持有人法国汤姆森多媒体公司与德国弗劳恩霍夫联合研发的解码技术由电路协会。 MP3Pro 可以在基本不改变文件大小的情况下，提高原始 MP3 音乐的音质。它可以在以较低比特率压缩音频文件的同时，最大程度地保持压缩前的音质。

6）WMA（Windows Media Audio）是微软在互联网音视频领域的杰作。 WMA 格式通过减少数据流量但保持音质来实现更高的压缩率。压缩率一般可以达到1:18。此外，WMA 还可以通过 DRM（数字版权管理）来保护版权。

7) RealAudio 是 Real Networks 推出的一种文件格式。最大的特点是可以实时传输音频信息，尤其是在网速较慢的情况下，依然可以流畅的传输数据，所以RealAudio主要适用于网络在线播放。目前的RealAudio文件格式主要有RA（RealAudio）、RM（RealMedia、RealAudio G2）、RMX（RealAudio Secured）等，这些文件的共同点是音质随着网络带宽的不同而变化。在大多数人听到流畅的声音的前提下，带宽越宽的听众可以获得更好的音质。

8) Audible 有四种不同的格式：Audible1, 2, 3, 4。Audible.com 网站主要在互联网上销售有声读物，并通过四种 Audible.com 专用音频格式之一为其销售的商品和文件提供保护. 每种格式主要考虑使用的音频源和收听设备。格式 1、2 和 3 使用不同级别的语音压缩，而格式 4 使用较低的采样率和与 MP3 相同的解码方法。由此产生的声音更清晰，可以更有效地从互联网上下载。 Audible 使用他们自己的桌面播放工具，即 Audible Manager。使用此播放器，您可以播放存储在 PC 上或传输到便携式播放器的 Audible 格式文件。

9）AAC实际上是Advanced Audio Coding的缩写。 AAC 是由 Fraunhofer IIS-A、杜比和 AT&T 联合开发的一种音频格式。它是 MPEG-2 规范的一部分。 AAC 使用的算法与 MP3 不同。 AAC结合其他功能来提高编码效率。 AAC的音频算法在压缩能力上远超以往的一些压缩算法（如MP3等）。它还支持多达 48 个音轨、15 个低频音轨、更高的采样率和比特率、多语言兼容性以及更高的解码效率。总之，AAC可以在比MP30文件小3%的前提下提供更好的音质。

10) Ogg Vorbis 是一种新的音频压缩格式，类似于 MP3 等现有音乐格式。但一个区别是它是完全免费的、开放的并且没有专利限制。 Vorbis 是这种音频压缩机制的名称，而 Ogg 是一个打算设计一个完全开放的多媒体系统的项目的名称。 VORBIS 也是有损压缩，但它使用更先进的声学模型来减少损失。因此，以相同比特率编码的 OGG 听起来比 MP3 更好。

11）APE是一种无损压缩音频格式，在不降低音质的前提下，体积压缩到传统无损格式WAV文件的一半。

12) FLAC是Free Lossless Audio Codec的缩写，是一组著名的免费音频无损压缩编码，其特点是无损压缩。

3.音频编码的基本原理

语音编码专用于减少传输所需的信道带宽，同时保持输入语音的高质量。

语音编码的目标是设计一种低复杂度的编码器，以尽可能低的比特率实现高质量的数据传输。

1）静音阈值曲线：人耳只有在安静的环境中才能听到各种频率声音的阈值。

2) 临界频段

由于人耳对于不同的频率具有不同的分辨率，因此MPEG1 / Audio根据不同的编码层和不同的采样频率将22khz内的可感知频率范围划分为23〜26个关键频带。下图列出了理想关键频带的中心频率和带宽。从图中可以看出，人耳对低频的分辨率更高

3）频域的掩蔽效应：幅值较大的信号会掩蔽频率相近而幅值较小的信号，如下图所示：

4) 时域的掩蔽效果：在短时间内，如果出现两个声音，SPL（声压级）较大的声音会掩蔽SPL较小的声音。时域遮蔽效果分为前向遮蔽（pre-masking）和后向遮蔽（post-masking）。掩膜后的时间会更长，大约是掩膜前的10倍。

时域掩蔽效应有助于消除预回声。

4. 编码的基本手段

1) 量化器和量化器

量化和量化器：量化将离散时间的连续信号转换为离散时间的离散信号。常见的量化器有：统一量化器，对数量化器和非统一量化器。量化过程追求的目标是最小化量化误差并最小化量化器的复杂性（两者本身是矛盾的）。

（A）统一量化器：最简单，最差的性能，仅适用于电话语音。

（B）对数量化器：它比统一量化器复杂，易于实现，其性能优于统一量化器。

（C）非均匀量化器：根据信号的分布，设计量化器。在信号密集的地方执行详细的量化，在信号稀疏的地方执行粗略的量化。

2) 语音编码器

语音编码器有三种类型：（a）波形编码器；（b）声码器；（c）混合编码器。

波形编码器旨在构建包括背景噪声表的模拟波形。作用于所有输入信号，它将产生高质量的样本并消耗高比特率。声码器将不会重新生成原始波形。这组编码器将提取一组参数，将其发送到接收端以导出语音生成模型。声码器的语音质量不够好。混合编码器，结合了波形编码器和声音检测器的优点。

2.1波形编码器

波形编码器的设计通常与信号无关。因此，它适合于各种信号的编码，而不仅限于语音。

1) 时域编码

a）PCM：脉冲编码调制，是最简单的编码方法。它仅是信号的离散化和量化，并且经常使用对数化。

b）DPCM：差分脉冲编码调制，仅编码样本之间的差异。前一个或多个样本用于预测当前样本值。用于进行预测的样本越多，预测值越准确。真实值和预测值之间的差称为残差，这是编码的对象。

c）ADPCM：自适应差分脉冲编码调制，自适应差分脉冲编码。即，在DPCM的基础上，根据信号的变化来适当地调整量化器和预测器，使得预测值更接近真实信号，残差较小，并且压缩效率较高。

（2）频域编码

频域编码是将信号分解为一系列不同的频率元素并执行独立的编码。

a）子带编码：子带编码是最简单的频域编码技术。它是一种将原始信号从时域转换到频域，然后将其划分为几个子带，并分别对其进行数字编码的技术。它使用带通滤波器（BPF）组将原始信号划分为几个（例如m个）子带（称为子带）。使每个子带通过等效于单边带幅度调制的调制特性，将每个子带移至接近零频率，分别通过BPF（总共为m），然后以规定的速率传输每个子带（奈奎斯特速率）对子带输出信号进行采样，并且采样值通常进行数字编码，并设置m个数字编码器。将每个数字编码信号发送到多路复用器，最后输出子带编码数据流。

对于不同的子带，可以使用不同的量化方法，并且可以根据人耳感知模型将不同数量的比特分配给子带。

b）变换编码：DCT编码。

5.声码器

通道声码器：利用人耳对相位的不敏感度。

同态声码器：可以有效地处理合成信号。

共振峰声码器：语音信号的大多数信息位于共振峰的位置和带宽上。

线性预测声码器：最常用的声码器。

6. 混合编码器

波形编码器试图保留编码信号的波形，并可以以中等比特率（32 kbps）提供高质量的语音，但是不能应用于低比特率的场合。声码器试图产生与编码的信号在听觉上相似的信号，并且可以以低比特率提供可理解的语音，但是所得语音听起来不自然。混合编码器结合了两者的优点。

RELP：在线性预测的基础上，对残差进行编码。其机制是：仅发送一小部分残差，并在接收端重建所有残差（复制基带的残差）。

MPC：多脉冲编码，可消除残差的相关性，并用于补偿声码器将语音分为有声和无声的简单分类，而没有中间状态的缺陷。

CELP：码本激励线性预测，它使用声道预测和音高预测器的级联来更好地近似原始信号。