FMUSER更轻松地传输视频和音频!

[电子邮件保护] WhatsApp的+ 8618078869184
语言

    音频处理1基础知识

     

    Audio


    指人耳可以听到的,频率在20 Hz到20 kHz之间的声波。

    如果您在计算机上添加相应的声卡-我们经常说的声卡,我们可以记录所有声音,并且声音的声学特性(例如声音的音量)可以作为文件存储在计算机的硬盘上磁盘。 相反,我们也可以使用某个音频程序来播放存储的音频文件,以恢复先前记录的声音。

     

    1音频文件格式
    音频文件格式具体是指存储音频数据的文件格式。 有许多不同的格式。

    获取音频数据的一般方法是以固定的时间间隔对音频电压进行采样(量化),并以一定的分辨率存储结果(例如,CDDA的每个采样为16位或2个字节)。 采样间隔可以具有不同的标准。 例如,CDDA每秒使用44,100次; DVD每秒使用48,000或96,000次。 因此,[采样率],[分辨率]和[声道]数量(例如,用于立体声的2声道)是音频文件格式的关键参数。

     

    1.1损失与无损
    根据数字音频的生产过程,音频编码只能无限接近自然信号。 至少目前的技术只能做到这一点。 任何数字音频编码方案都是有损的,因为它无法完全恢复。 在计算机应用中,保真度最高的是PCM编码,它广泛用于材料保存和音乐欣赏。 它用于CD,DVD和我们常见的WAV文件中。 因此,按惯例,PCM已成为一种无损编码,因为PCM代表了数字音频中的最佳保真度。

     

    音频文件格式有两种主要类型:

    无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)
    有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC

     


    2参数介绍


    2.1采样率


    指每秒获取的声音样本数。 声音实际上是一种能量波,因此也具有频率和振幅的特征。 频率对应于时间轴,振幅对应于电平轴。 波浪是无限平滑的,弦可以看作是由无数个点组成的。 由于存储空间相对有限,因此必须在数字编码过程中对字符串的点进行采样。

     

    采样过程是提取某个点的频率值。 显然,在一秒钟内提取的点越多,获得的频率信息就越多。 为了恢复波形,采样频率越高,声音质量越好。 恢复越真实,但同时占用更多资源。 由于人耳的分辨率有限,无法分辨出太高的频率。 通常使用22050的采样频率,44100已经是CD声音质量,超过48,000或96,000的采样对人耳不再有意义。 这类似于电影中每秒24帧。 如果是立体声,则样本加倍,文件几乎加倍。

     

    根据奈奎斯特采样理论,为保证声音不失真,采样频率应在40kHz左右。 我们不需要知道这个定理是如何产生的。 我们只需要知道,这个定理告诉我们,如果我们想要准确地记录一个信号,我们的采样频率必须大于或等于音频信号最大频率的两倍。 请记住,它是最大频率。

     

    在数字音频领域,常用的采样率是:

    8000 Hz-手机使用的采样率,足以使人说话
    手机使用的11025 Hz采样率
    无线电广播中使用的22050 Hz采样率
    miniDV数码摄像机,DAT,32000 Hz采样率(LP模式)
    44100 Hz音频CD,也通常用作MPEG-1音频(VCD,SVCD,MP3)的采样率
    商用PCM录音机使用的47250 Hz采样率
    miniDV,数字电视,DVD,DAT,电影和专业音频中使用的数字声音的采样率为48000 Hz
    商用数字记录仪使用的50000 Hz采样率
    96000 Hz或192000 Hz-DVD音频,某些LPCM DVD音轨,BD-ROM(蓝光盘)音轨和HD-DVD(高清晰度DVD)音轨使用的采样率


    2.2采样位数
    采样位数也称为采样大小或量化位数。 它是用于测量声音波动的参数,即声卡的分辨率,或者可以理解为由声卡处理的声卡的分辨率。 值越大,分辨率越高,所录制和播放的声音越真实。 声卡的位是指声卡在收集和播放声音文件时使用的数字声音信号的二进制数字。 声卡的位客观地反映了数字声音信号对输入声音信号的描述的准确性。 常见的声卡主要是8位和16位。 如今,市场上所有主流产品都是16位及以上的声卡。

     

    每个采样数据记录振幅,采样精度取决于采样位数:

    1个字节(即8位)只能记录256个数字,这意味着幅度只能划分为256个级别。
    2个字节(即16位)可以小到65536,这已经是CD标准;
    4个字节(即32位)可以将幅度细分为4294967296电平,这实际上是不必要的。
    2.3通道数
    即,声道的数量。 普通的单声道和立体声(双声道)现在已发展为四声道环绕声(四声道)和5.1声道。

     

    2.3.1 Mono
    单声道是声音再现的一种相对原始的形式,而早期的声卡则更常使用它。 单声道声音只能使用一个扬声器发出声音,有些声音也被处理为两个扬声器以输出相同的声道。 当通过两个扬声器播放单声道信息时,我们可以清楚地感觉到声音来自两个扬声器。 无法确定从扬声器中部传输到我们耳朵的声源的具体位置。

     

    2.3.2立体声
    双耳声道有两个声音声道。 原理是,当人们听到声音时,他们可以根据左耳和右耳之间的相位差来判断声源的特定位置。 在录音过程中将声音分配给两个独立的通道,以达到良好的声音定位效果。 该技术在音乐欣赏中特别有用。 聆听者可以清楚地区分各种乐器的来源,从而使音乐更具想象力,更接近现场体验。

     

    当前最常用两种声音。 在卡拉OK中,一个用于播放音乐,另一个用于歌手的声音。 在VCD中,一种用普通话配音,另一种用粤语配音。

     

    2.3.3四音环绕
    四声道环绕声定义了四个发声点,左前,右前,左后和右后,听众被这些环绕。 还建议添加一个低音炮,以增强低频信号的播放处理(这就是4.1声道扬声器系统如今广受欢迎的原因)。 就整体效果而言,四声道系统可以为听众带来来自多个不同方向的环绕声,可以获得在各种不同环境中的听觉体验,并为用户带来全新的体验。 如今,四声道技术已广泛集成到各种中高端声卡的设计中,成为未来发展的主流趋势。

     

    2.3.4 5.1频道
    5.1频道已在各种传统剧院和家庭影院中广泛使用。 一些更著名的录音压缩格式,例如Dolby AC-3(杜比数字),DTS等,都是基于5.1声音系统的。 “ .1”通道是经过特殊设计的低音炮通道,可以产生频率响应范围为20至120 Hz的低音炮。 实际上,5.1音响系统来自4.1环绕声,不同之处在于它增加了一个中央单元。 该中央单元负责传输80Hz以下的声音信号,有助于在观看电影时增强人声,并将对话集中在整个声场的中间,以提高整体效果。

     

    目前,许多在线音乐播放器(例如QQ音乐)已经提供了5.1声道音乐以供试用和下载。

     

    2.4框架
    音频帧的概念不如视频帧清晰。 几乎所有的视频编码格式都可以简单地将帧视为已编码的图像。 但是,音频帧与编码格式有关,该编码格式由每种编码标准实现。

     

    例如,在PCM(未编码的音频数据)的情况下,它根本不需要帧的概念,并且可以根据采样率和采样精度进行播放。 例如,对于采样率为44.1kHZ,采样精度为16位的双音频,可以计算出位速率为44100162bps,每秒音频数据为固定的44100162/8字节。

     

    amr框架相对简单。 它规定音频的每20ms是一帧,音频的每一帧都是独立的,并且可以使用不同的编码算法和不同的编码参数。

     

    mp3帧要复杂一些,包含更多信息,例如采样率,比特率和各种参数。

     

    2.5周期
    音频设备一次处理所需的帧数,音频设备的数据访问和音频数据的存储均基于此单位。

     

    2.6交错模式
    数字音频信号的存储方法。 数据存储在连续的帧中,即首先记录帧1的左声道样本和右声道样本,然后开始记录帧2。

     

    2.7非隔行模式
    首先,记录一个周期内所有帧的左通道样本,然后记录所有右通道样本。

     

    2.8比特率(bit rate)
    比特率也称为比特率,它是指音乐每秒播放的数据量。 单位由位表示,即二进制位。 bps是比特率。 b是位(位),s是秒(秒),p是每(每),一个字节等效于8个二进制位。 也就是说,以这样的方式计算4分钟的歌曲128bps的文件大小:(128/8)460 = 3840kB = 3.8MB,1B(字节)= 8b(位),通常mp3在128位左右是有益的速度,大概是3-4 BM。

     

    在计算机应用中,保真度最高的是PCM编码,广泛使用 用于材料保存和音乐欣赏。 CD、DVD 和我们常见的 WAV 文件都在使用。 因此,按照惯例,PCM 已经成为一种无损编码,因为 PCM 代表了数字音频中最好的保真度。 这并不意味着PCM可以保证信号的绝对保真度。 PCM 只能达到最大的无限接近。

     

    计算PCM音频流的比特率是一项非常简单的任务,即采样率值×采样大小值×通道数bps。 一个WAV文件,采样率为44.1KHz,采样大小为16bit,并且具有双通道PCM编码,其数据速率为44.1K×16×2 = 1411.2Kbps。 我们常见的音频CD使用PCM编码,而CD的容量只能保存72分钟的音乐信息。

     

    双通道PCM编码的音频信号在176.4秒钟内需要1KB的空间,在10.34分钟内需要约1M的空间。 对于大多数用户来说,这是不可接受的,尤其是那些喜欢在计算机上听音乐的用户。 磁盘占用率只有两种方法,下采样索引或压缩。 不建议降低采样指数,因此专家们开发了各种压缩方案。 最原始的是DPCM,ADPCM,最著名的是MP3。 因此,数据压缩后的码率远低于原始码。

     

    2.9计算示例
    例如,“ Windows XP startup.wav”的文件长度为424,644字节,格式为“ 22050HZ / 16位/立体声”。

    然后其每秒的传输速率(比特率,也称为比特率,采样率)为22050162 = 705600(bps),转换为字节单位为705600/8 = 88200(每秒字节),播放时间:424644(总字节) / 88200(每秒字节数)≈4.8145578(秒)。

     

    但这还不够准确。 标准PCM格式的WAVE文件(* .wav)至少具有42个字节的标头信息,在计算播放时间时应将其删除,因此:(424644-42)/(22050162/8)≈4.8140816(秒)。 这更准确。

     

    3 PCM音频编码
    PCM 代表脉冲编码调制。 在PCM过程中,对输入的模拟信号进行采样、量化和编码,二进制编码数代表模拟信号的幅度; 接收端然后将这些代码恢复为原始模拟信号。 即数字音频的A/D转换包括三个过程:采样、量化和编码。

     

    语音PCM的采用率为8kHz,采样位数为8bit,因此语音数字编码信号的编码率为8bits×8kHz = 64kbps = 8KB / s。

     

    3.1音频编码原理
    具有一定电子基础的任何人都知道传感器收集的音频信号是模拟量,但是我们在实际传输过程中使用的是数字量。 这涉及将模拟转换为数字的过程。 模拟信号必须经过采样,量化和编码三个过程,才能实现语音数字化的脉冲编码调制(PCM,Pulse Coding Modulation)技术。

     

    转换过程


    3.1.1抽样
    采样是从模拟信号中提取采样(采样率)的过程,采样频率大于信号带宽的2倍(Lequist采样定理),并在时间轴上将其转换为离散采样信号。
    采样率:每秒从连续信号中提取以形成离散信号的样本数,以赫兹(Hz)表示。


    示例:
    例如,音频信号采样率是8000hz。
    可以理解,上图中的样本对应于图中的电压随时间的变化曲线为1秒,然后为较低的1 2 3…10,因为应该有1-8000点,即1秒分为8000个部分,然后依次取出它们对应于该8000点时间的电压值。

     

    3.1.2定量
    尽管采样信号是时间轴上的离散信号,但它仍然是模拟信号,并且其采样值可以在一定范围的值内具有无限数量的值。 必须采用``舍入''方法对样本值进行``舍入'',以便将特定值范围内的样本值从无限数量的值更改为有限数量的值。此过程称为量化。

     

    采样位数:指用于描述数字信号的位数。
    8位(8位)代表2到8次幂= 256,16位(16位)代表2到16次幂= 65536;

     

    示例:
    例如,音频传感器收集的电压范围是0-3.3V,采样数是8bit(位)
    也就是说,我们将3.3V / 2 ^ 8 = 0.0128作为量化精度。
    我们将3.3v除以0.0128作为步进Y轴,如图3所示,1 2…8变为0 0.0128 0.0256…3.3 V
    例如,采样点的电压值为1.652V(介于1280.128和1290.128之间)。 我们将其舍入为1.65V,相应的量化级别为128。

     

    3.1.3编码
    量化的采样信号被转换成一系列按照采样顺序排列的十进制数字代码流,即十进制数字信号。 一个简单而有效的数据系统是二进制代码系统。 因此,十进制数字代码应转换为二进制代码。 根据十进制数字代码的总数,可以确定二进制编码所需的位数,即字长(采样位数)。 将量化样本信号转换为具有给定字长的二进制代码流的过程称为编码。

     

    示例:
    那么上面的1.65V对应于128的量化级别。相应的二进制系统为10000000。也就是说,对采样点进行编码的结果为10000000。当然,这是一种不考虑正负值的编码方法。 ,并且有许多类型的编码方法需要对特定问题进行特定分析。 (PCM音频格式编码是A-law 13多义线编码)

     

    3.2 PCM音频编码
    PCM信号未经过任何编码和压缩(无损压缩)。 与模拟信号相比,它不容易受到传输系统的混乱和失真的影响。 动态范围广,音质也不错。

     

    3.2.1 PCM编码
    所使用的编码是A律13折线编码。
    有关详细信息,请参阅:PCM语音编码

     

    3.2.2通道
    声道可分为单声道和立体声(双声道)。

    PCM的每个样本值都包含在整数i中,i的长度是容纳指定样本长度所需的最小字节数。

     

    样本量数据格式最小值最大值
    8位PCM无符号整数0
    16位PCM int -32767 32767

     

    对于单声道声音文件,采样数据是8位短整数(short int 00H-FFH),并且采样数据按时间顺序存储。


    两声道立体声文件,每个采样数据是一个16位整数(int),高八位(左声道)和低八位(右声道)分别代表两个声道,并且采样数据按时间顺序排列按备用顺序存款。
    采样位数为16位时也是如此,存储与字节顺序有关。


    PCM数据格式
    所有网络协议都使用大端方式传输数据。 因此,big endian方法也称为网络字节顺序。 当两个具有不同字节顺序的主机进行通信时,必须先将它们转换为网络字节顺序,然后再发送数据,然后再进行传输。

     

    4G.711
    在一般的PCM中,模拟信号在被数字化之前要经过一些处理(例如幅度压缩)。 一旦数字化,通常会进一步处理PCM信号(例如数字数据压缩)。

     

    G.711 是标准的多媒体数字信号(压缩/解压)算法调制来自 ITU-T 的脉冲代码。 它是一种数字化模拟信号的采样技术,尤其是音频信号。 PCM每秒对信号采样8000次,8KHz; 每个样本为 8 位,共 64Kbps (DS0)。 抽样水平的编码有两种标准。 北美和日本使用 Mu-Law 标准,而其他大多数国家使用 A-Law 标准。

     

    A律和U律是PCM的两种编码方法。 A-law PCM用于欧洲和我国,Mu-law用于北美和日本。 两者之间的区别在于量化方法。 A法则使用12位量化,而u法则使用13位量化。 采样频率为8KHz,并且都是8位编码方法。

     

    简单理解:PCM是音频设备收集的原始音频数据。 G.711和AAC是两种不同的算法,可以将PCM数据压缩到一定比例,从而节省网络传输的带宽。

     

     

     

     

    列出所有问题

    昵称

    电邮

    问题

    我们的其他产品:

    专业调频电台设备包

     



     

    酒店IPTV解决方案

     


      输入电子邮件以获取惊喜

      fmuser.org

      es.fmuser.org
      it.fmuser.org
      fr.fmuser.org
      de.fmuser.org
      af.fmuser.org ->荷兰语
      sq.fmuser.org ->阿尔巴尼亚人
      ar.fmuser.org ->阿拉伯语
      hy.fmuser.org - >亚美尼亚
      az.fmuser.org ->阿塞拜疆
      eu.fmuser.org ->巴斯克
      be.fmuser.org ->白俄罗斯语
      bg.fmuser.org - >保加利亚
      ca.fmuser.org ->加泰罗尼亚语
      zh-CN.fmuser.org ->中文(简体)
      zh-TW.fmuser.org - >中国(繁体)
      hr.fmuser.org ->克罗地亚语
      cs.fmuser.org ->捷克
      da.fmuser.org ->丹麦语
      nl.fmuser.org - >荷兰
      et.fmuser.org ->爱沙尼亚语
      tl.fmuser.org ->菲律宾
      fi.fmuser.org ->芬兰语
      fr.fmuser.org - >法国
      gl.fmuser.org ->加利西亚语
      ka.fmuser.org ->乔治亚
      de.fmuser.org ->德语
      el.fmuser.org - >希腊
      ht.fmuser.org ->海地克里奥尔语
      iw.fmuser.org ->希伯来语
      hi.fmuser.org ->印地语
      hu.fmuser.org - >匈牙利
      is.fmuser.org ->冰岛语
      id.fmuser.org ->印尼语
      ga.fmuser.org ->爱尔兰
      it.fmuser.org - >意大利
      ja.fmuser.org ->日语
      ko.fmuser.org ->韩文
      lv.fmuser.org ->拉脱维亚
      lt.fmuser.org - >立陶宛
      mk.fmuser.org ->马其顿语
      ms.fmuser.org ->马来语
      mt.fmuser.org ->马耳他语
      no.fmuser.org - >挪威
      fa.fmuser.org ->波斯语
      pl.fmuser.org ->波兰语
      pt.fmuser.org ->葡萄牙语
      ro.fmuser.org - >罗马尼亚
      ru.fmuser.org ->俄语
      sr.fmuser.org ->塞尔维亚语
      sk.fmuser.org ->斯洛伐克
      sl.fmuser.org - >斯洛文尼亚
      es.fmuser.org ->西班牙语
      sw.fmuser.org ->斯瓦希里语
      sv.fmuser.org ->瑞典语
      th.fmuser.org - >泰国
      tr.fmuser.org ->土耳其语
      uk.fmuser.org ->乌克兰语
      ur.fmuser.org ->乌尔都语
      vi.fmuser.org - >越南
      cy.fmuser.org ->威尔士语
      yi.fmuser.org - >意第绪语

       
  •  

    FMUSER更轻松地传输视频和音频!

  • 联系我们

    地址:
    305广州市环浦路273号汇兰大厦510620室

    电子邮箱:
    [电子邮件保护]

    电话/ WhatApps:
    +8618078869184

  • 分类目录

  • 订阅电子邮件

    名字或全名

    邮箱

  • 贝宝的解决方案  西联汇款中国银行
    电子邮箱:[电子邮件保护]   WhatsApp:+8618078869184 Skype:sky198710021 跟我聊天
    版权所有2006-2020技术支持 www.fmuser.org

    联系我们