自CD面市以来,至今已经有三十多年。这个时间比很多的新一代的发烧友的年龄还要大。我记得我当时刚接触CD的时候简直惊为天人,从来没有听过这么好的声音。而时至今日,很多烧友却是更加推崇纯模拟的音源。这有点像围城里所说的“城外的人想进来,城里的人想出去”。其实,数字音频和模拟音频各有优缺点,由于我接下来所讲的全都是数字音频的知识,在说这些知识的时候,实际上就是围绕着数字音频的问题,和如何解决问题的方法。所以,这里先不讲数字音频的缺点,而讲一下数字音频的优点。其实数字音频的优点就只有一个,存储和传播是无损的。模拟音频随着拷贝次数,存储时间,使用时间,会极大的影响其品质。这一点就注定了模拟音频的实用性问题是无法解决的。我们势必只能拥抱数字音频。
在接下来的文章中,为了尽量使所有读者都能够理解。我会试图用尽量浅显的例子来表达清楚。
第一篇,采样率,过采样和非过采样
我们知道,在现实世界中,音乐是连续的,图像是连续的。我们知道电视机或者电影,其实是由一幅幅静止的画面组成的,静止的画面一幅幅的快速切换,人眼就看到了连续的画面。那么,连续的画面需要多快呢?是一秒钟50幅,只要达到这个速率,人眼就不会觉察到画面之间切换的断续,当然一秒钟50幅是一个最低的要求,如果能做更多更快,那是可以提高视觉效果的。对于音频来说,也是同样的概念,音波的信息,只要是足够多的断续的信息,便可以被人耳解读成连续的音乐。那么,人耳需要多少断续的信息才可以被解读成连续的信息呢?这首先要讲一下人耳的可听到的频率范围,为20-20000赫兹。那么,如果要体现最高的20K的频率的话,需要多少断续的信息呢?这里呢,我需要引入一个专有名词“奈奎斯特频率”,具体原理我们在这里不需要去深究,我们只需要知道结果就可以了。结果就是,至少需要两倍于20K的“断续的信息”,才可以表达出20K的频率。说到这里,我们就把一个“断续的信息”称为一个采样点。也就是说,我们要能够体现20K的音频的话,需要一秒钟至少40K的采样点。那么,我们再回来看CD的标准,CD的标准是16bit/44.1Ksps。我们在这篇文章里先不解释什么是16bit,这在后续的文章中我会解释。这个44.1Ksps就是采样率,我们可以看到,离理论的最小值40K,只有多出大约10%的余量,有点勉强。
在CD刚出现的时候,还没有过采样这项技术,但是随着人们发现44.1K的采样率有点不够用,那怎么办呢?于是过采样技术就诞生了。那什么是过采样呢?简单来讲,就是因为44.1K的采样率过于勉强,如果有更高的采样率势必会有更好的效果。但是,我们在CD中记录的信息只有一秒钟44.1K个,怎么变成88.2K,176.4K甚至更高呢?这就需要进行插值运算,通过数学方法,算出缺掉的采样点是什么,人为的补充进去。
在过采样运算的时候,成整数倍的过采样是最容易做的,也不容易出现问题。所以,我们应该确保过采样是整数倍的,如果不是整数倍的,比如44.1K过采样到48K,这就对计算资源的要求很高,非常容易出问题,所以,应该尽量避免这种情况的出现。这是题外话,顺便一提。
时至今日,数字音频在过采样的路上已经越走越远,4倍频,8倍频不足为奇,16倍频,32倍频甚至更高,这都是主流的趋势。如果是32倍频的话,简单来讲,就是32个采样点中,其中只有一个来自于原有的记录信息,而剩下的31个采样点都是来自于插值计算。那么,我们真的可以信任那31个来自于插值运算的采样点吗?这就是我们下面需要讨论的正题。
不得不说,主流的音频技术人员,甚至是设计师,都信任那31个被计算出来的采样点。但真正的事实是,音频的特殊应用,不适合使用过采样这门技术。现在越来越多的人也认识到这个问题,发现原来他们以前所相信的东西,其实是有问题。是的,我们现在处在一个否定当前主流技术的过程中。这就像中国终于认识到了环保的重要性,开始削减很多高污染的产业一样,虽然那些高污染的产业曾经给我们带来财富,但是,我们现在更重视环境,而财富,我们可以用其他手段来获得。
- 过采样的优点
在谈过采样所带来的问题之前,我们先谈一下过采样所带来的好处。音频技术界也不都是傻子,没有好处的东西,谁也不会感兴趣,又怎么会发展到今日?
首先,对于一个采样率为F的信号进行频谱分析的时候,会产生一个以F/2为中心点的镜像频谱,假设有一个1K的音频信号,以48K的采样率进行采样,那么,在频谱上的分布,你可以看到在1K处有一个信号,在47K处也会有一个信号。
所以,我们可以看到,48K的一半为24K,以24K为中心,1K的信号和47K,正好是呈现镜像关系。同样,如果是一个5K的信号,会出现一个43K的镜像信号。
这些镜像的频率都是分布于24K到48K之间,虽然人耳无法听到20K以上的频率可以不用理会。但如果是后端的放大器不够理想,两个不同的频率有可能导致失真互调失真(IMD)从而产生一个新的频率落在音频范围之内。所以为了杜绝后患,减少对后端放大器的需求,这些在音频带宽外的信号也最好是被滤除干净。那么问题来了,模拟滤波器如果要在保障20K带宽内幅值和相位的平直的同时,还要滤除非常临近的24K-48K的信号,这就变得不可能,虽然可以用高阶的模拟滤波器也可以做到非常陡峭的切割,但其对音频带宽内的影响很大,结果是得不偿失。
数字滤波器的一个优点是其在频域的特性的可以做的非常完美,运用数字滤波器可以轻松的进行过采样和滤波,在进行过采样过后,假设过采样了4倍,48K*4=192K。192K的一半是96K,那么0-20K的音频信号以96K为中心进行镜像的话就是176K-196K。这中间已经拉开了足够大的缓冲地带可以让模拟滤波器进行良好的工作了。
音频的国际标准化组织曾经对DAC和数字放大器的指标测量指定过一个测量标准方法叫做AES-17,其要求对20K音频范围以外的信号进行一个完全的滤除以免影响到测量。如果是过采样的DAC,就算不按照标准来做也不会有什么影响,因为其带宽外的信号已经被滤除的非常干净了。但如果是非过采样的DAC,如果不按照此标准来做就会导致测量结果出错。
另外,在高频部分,如果不进行过采样处理的话,由于样本数量过少,其幅值也会有一定的衰减。如果以48K采样率为例,其在20K处会有2-3db的信号衰减。而进行过采样处理后就完全不会有这个问题了。
- 过采样的缺点
可以看到,过采样技术的确是一个看起来非常好的技术,解决了很多问题。可以这么说,基于数字滤波器的过采样技术对于频域的处理是完美的,就算是最简单的数字滤波器,在这方面的性能也是无可挑剔。那么接下来,我们要讲的就是过采样所带来的问题,这也是为什么我们要否定掉这项技术的原因。
首先,过采样会带来振铃效应。一个没有过采样的突发信号应该如图1所示,但是我们现在所采用的过采样技术会导致图2,或图3的失真。
在图2,我们看到在一个信号进行变换时,其变换前和变换后会产生一些振铃。图3是现在可以用的一些技术手段,可以有效的去除前振铃,但是后振铃会变的相当大。
从音乐的角度来说,前振铃就像是一个音符在它应该出现之前,就已经有一部分先跑出来了,这会造成一些突兀的感觉。后振铃就像是一些回音,造成一些额外的混响,通常播放环境也会有一定的混响,比如我们在房间里,听到声音是从多个渠道来的,一方面是声源的直达声,另外存在的就是声源经过墙壁折射过后到达你耳朵里声音,更有一些是墙上折射过几次才达到你耳朵的。但是需要注意的是,图3的后振铃会比图2严重的多,所以,当其到达一个比较严重的程度时,就会产生拖沓的感觉,瞬态不佳。另外,额外的后振铃紊乱了原有应该有的房间混响,导致乐器在声场中的定位也出现了问题。一个房间的混响方式是固定的,而由过采样产生的后振铃是随时变化的。所以其对声场的影响非常大。如果从听感上来取舍的话,我个人反而会认为图2比图3的问题小一些。
如果从波形上还是无法直接理解振铃对听感的影响的话。用图片可能更能有一些直观的理解,因为振铃效应也存在于图像处理中。
左边是原图,右边是振铃效应。不排除有些人会认为右图才是高解析,边缘锐化会突出表现出一些线条感,但同时损失了细腻的纹理和自然的过渡。不知道你们有没有注意到后面有个穿黑衣服的人在回头望。在原图中,我们不太能够注意到那个人,但是在右图中,就显得比较容易辨别。所以,对于音频发烧友来说,你喜欢哪张图呢?
为什么上面看上去这么糟糕的问题,长期以来一直未得到充分的重视呢?因为,音频工业在衡量各种参数指标的时候,都是用频谱在进行分析。我们采用的数字滤波器来完成过采样,在频域上的表现非常好,但是在时域上就很差劲了。如果做个通俗的比喻的话,频域相当于内容,时域相当于顺序。
打个比方,下列语句,内容都是完整的,
- 小猴子找不着爸爸妈妈,很着急。
- 小猴子找不着爸爸,妈妈很着急。(顺序上很小的变化,但已经造成了歧义)
- 爸爸找不着妈妈,小猴子很着急。(顺序上更大的变化,更大的歧义)
- 爸小妈急爸着妈猴着不,找子很。(更混乱的顺序,虽然内容还是完整的,但已经完全没有意义)
而且,对于缺失的信息,是否用数学计算就可以很好的计算出缺失的信息,从而弥补吗?
在这里,我们先要说一下人的视觉和听觉,眼睛和耳朵只是一个拾取信息的器官,这些信息被传输到大脑里,大脑有专门的部分负责把这些信息解读分析出来,大脑对这些分析的功能,强大到连现代科学,那怕是用超级计算机,都不能望其项背,而且其中一些分析的原理,根本连现代科学都无法解释。
举个视觉的例子,我们知道需要两个个眼睛才能形成三维的视觉,那如果你尝试一下闭上一只眼睛,你会发现有一些影响,但影响不大,你还是能大致的定位物体离你大概的距离,进行日常的生活。这些平面的信息,经过大脑的分析后就能轻松补足原本所不具备的三维信息。
举个听觉的例子,我们知道我们只有两个耳朵,处在一个水平线上。那么,我们区分声场的左右这很容易理解,因为两个耳朵是在一个水平线上的。但是为什么我们还能辨别声音是从上还是下发出来的呢?这同样是经过大脑分析后才补全的信息,才使得我们两个处于水平方向上的耳朵照样可以分辨垂直方向的定位。
以上的这两个例子,是现代科学不计成本都无法解决的问题,对于人脑来说,却是小菜一碟。
如果,现在有一个非常简单的片段
1234567
中间有一个丢失了
123_567
这个丢失的信息,对于电脑来说很容易就能补齐。对于人脑来说,也同样是很容易就补齐了
再如果,现在有一个稍微复杂一点的片段
小猴子找不着爸爸妈妈,很着急。
中间有一个丢失了
小猴子找__着爸爸妈妈,很着急。
如果用音频数字滤波器的方法来补齐的话,会得到类似于这样奇怪的结果
小猴子找找着爸爸妈妈,很着急。
但是对人脑来说,正确的补齐这个信息一点难度都没有,人脑能通过剩下的那些信息中理解这整句话应该有的意义,从而正确的补齐那个缺失的信息。
所以,结论出来了,对于简单而单调的信息,通过现有的计算方法是可以补齐的。但是,越是复杂的信息,现有的计算方法就越是会补入错误的信息。而人脑,在这方面要强大太多。
对于缺失的信息,传统的音频技术认为“有总比没有好”,但这其实是一条错误的道路。对人来说,“宁缺毋滥”,一个错误的信息远比没有信息的危害更大。没有这个信息,我们的人脑可以补足。但是存在错误信息就会产生误导,也失去了人脑补足的机会。这就好比一锅汤里少了一块肉,可能并不是什么大事,但如果补了一只死老鼠进去可就糟透了。老鼠也同样是肉,对于测量指标来讲,一锅汤里补足了足够份量的肉,便是一个好的结果。
- 测量和听感的思考
说到这里,我们可以发现,对于音频来说,我们应该了解到,音频产业现有的测量指标无法对应于人的听感,所以无法通过这些浅显的数字来量化声音的质量。这些指标往往是从内容的完整程度上进行分析。然而对于人的感觉来说并不是如此。完整的信息,但是顺序的混乱会带来灾难性的后果。同样,多的信息并不一定比少的信息更好,一个良好设计的非过采样的解码器我们会发现更丰富而且更自然的细节。
2大于1,小学生都知道,但是更高级的智慧却是懂得如何取舍,Less is More
________________
以上文章Jeff写于N年之前,当初HQplayer还没有流行,目前看来是有一定的局限性。
但这个文章有助于理解什么是NOS,NOS有什么优势!
同时,其实也解释了为什么我们需要HQplayer,为什么需要优异算法和强大电脑:
以下做补充:
HQplayer的出现,对于音频数字滤波器,可以利用计算机强大的计算性能和优异的算法,有效弥补了之前解码芯片的不足。
配合泉解码的NOS下的DSD解码功能,很好的融合了数字滤波和NOS两者的优势!
再贴几个图:
原贴地址: