PCM和DSD对比，谁的音质更好？

一直以来，很多Hi-Fi发烧友在聊音乐的时候，经常会谈论到关于音乐文件采样、位深、码率的相关技术参数。44.1kHz/16bit、96kHz/24bit、192kHz/24bit这种PCM波形规格到底意味着什么？DSD这种全新的规格音质有何优势？随着越来越多初烧开始接触数字音乐，本期就以纯理论的角度为大家对比一波WAV和DSD两种文件给大家进行参考。

相信不少的朋友都知道44.1kHz是采样率参数，但却不知道到底什么是采样率。所谓采样率，则是录音设备每秒采集声音样本信息的频率。44.1kHz采样率，即是在录音时，设备每秒记录44100次。

为什么无损音乐的采样率会被定位44.1kHz？这其实并非偶然。根据奈奎斯特采样定理（为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍），采样率44.1KHz的数字音频格式可以无损地记录22.05KHz以下频率的音频信号，其刚好超过了人耳的听力范围20kHz。对于PCM波形来说更高的采样率意味着曲线更加接近真实。

DSD64的采样率为2.8244MHz，相等换算的话就是CD的44.1kHZ的64倍采样率，也就是2824400次/秒。与PCM脉冲编码调制不同的是，DSD在录制时使用PWM脉冲宽度调制，因此在图像呈现上来看也与PCM有所不同，具体笔者会在下面讨论。

上面提到采样率是每秒记录声音的次数。对于用数字波形记录声音的方式来说，如果横轴是时间，想要出现完整的波形，那么就需要一个纵轴参数来为波形的“高度”进行设定。对于音频来说，这个高度信息，就是Bit（位深）。

所谓16Bit，其真实含义是用16位的二进制数来表示采样点的电平（纵轴高度）。在PCM波形中，纵轴高度越高、听感的响度就越高。位深对音乐文件的动态表现一般直接挂钩，16比特整数可以储存2的16次方（65536）个不同的数值，每增加1比特代表纵轴的精密度翻一倍。

相比于DSD来说，PCM技术于很早之前就应用于音频领域，因此其文件有很多的变种。正常的无损无压缩PCM波形的文件是WAV，我们日常下载到的flac、ape这种无损格式都是将WAV文件“无损伤压缩”的音乐档案，再次解压缩后数据基本不受影响（但不少数字音乐档案发烧玩家发现声音有“打折扣”的情况）。mp3、wma等格式为有损压缩格式，再次解压为WAV后会造成数据损失。

PCM和DSD本质有何不同？

PCM和DSD在录音时使用的就是两种完全不同的系统；PCM脉冲编码调制：首先将连续的模拟信号（音乐原声）离散并抽样量化，根据瞬时点参数构建PCM波形。简单、直观、文件占用空间低是它的优势，其劣势在于量化误差较大。

DSD在录制时使用了另外一种调制——PWM脉冲宽度调制：它是将模拟信号转换为脉波的一种全新的记录方式。在记录时，DSD的模数转换A/D部分并非如WAV一样，而是通过采样点实现增/不变/减的判断。打个比方吧，让PCM和PWM（DSD调制技术）一起记数字，PCM在记录一串数字时是1,2,3,4,3，而PWM则是0,1,1,1,-1（只取差值）。

PCM、DSD的读取方式

PCM波形的横轴为采样点、纵轴为位深，在做放音的数模转换D/A时，数字波形中的每个点会转换成其独有的二进制编码被指定的DSP或者CPU进行处理实现转换。对于PCM波形来说，由于每次采样都有严格的时间限制，因此PCM系统在声音回放时对晶振的需求的极高，如果解码时两方出现任何误差都会导致失真。同时，由于采样率远低于DSD，其在取样时的受量化误差影响，其理论上的信噪比也远低于DSD。

DSD文件的PWM波形在横纵轴设置上与PCM相同。不同的是，PWM波形的采样点深度仅为1bit，播放方式为录制的逆过程（具体参考2.1）。相对于PCM来说，DSD的优势是有效的防止了晶振问题，且动态响应也更加精准。不过由于其过于精准的特性，音乐的响度一般来说也是偏低的，这也是为什么不少Hi-Fi产品会专门为DSD播放专门做一个增益功能。还有就是DSD的文件占用空间巨大、解析耗电量大，非常吃硬盘资源。

两种数字音频编码区别？

和CD技术一样，DSD（Direct Stream Digital，直接比特流数字编码）同样是由索尼和飞利浦两大技术巨头联手开发的数字音频技术。那么两者之间有什么因缘和异同呢？

首先，我们可以把数字音频文件的基本数据单元，理解为“采样点”，播放数字音频文件的本质，就是读取每个采样点上记录的数据。在同一个数字音频文件中，每个采样点间的时间间距，都是相同、固定的，因此，每一秒内采样的次数越多，就意味着采样频率越高，记录的数据量也就越大，重放音乐的信息量和音乐品质也就越好（理论上）。

当然，不同的音频技术，采用的数据记录方式也是不同的；以我们日常接触最多的CD为例，本质是一种PCM（Pulse-Code Modulation，脉冲编码调制）音频的载体，所以这里也先简单介绍PCM技术的编码原理。在对音频信息进行记录时，PCM的做法，是先按照一定的数据位深（数据值数量），设定一组电平值数据规则，然后按这个规则，对每个采样点的电平值进行单独记录；从中我们可以理解：

1. 每个采样点，都是单独度量各自采样时刻的电平绝对值，采样点之间相互独立，无关联也无影响；

2. 数据位深越大，意味着电平值规则的数据量越大，每个采样点的数据记录也就越精细、丰富；

3. 采样频率越高，也就是采用的采样率越高，同样意味着采样数据更丰富，更接近原音原貌。

常规的CD文件是16bit 44.1kHz的PCM音频，也就是每秒钟取样44100次，并且用一组65536个值（=2的16次方=16bit）的规定电平，测量和记录采样时刻的电平值。

而DSD，可以理解为是一种PDM（Pulse-Density Modulation，脉冲密度调制）技术，在每个采样点，DSD文件只进行2个值（=1bit）的数据记录，记录的内容则是相比上一个采样点记录数值的信号电平变化（增大还是减小）。

相比PCM技术，DSD每个采样点只需做1bit位深的“1/0”记录，同时采样点之间数据互相关联，整首音频从开始到结束都可以视为是一个连贯、连续的整体（而不是如PCM那样每个采样点的数据本质各自独立）；当然，DSD也采用了远远高于PCM的采样频率，例如常规使用的DSD64，采样率是2.8224MHz，也就是每秒钟进行2824400次的采样记录，采样密度是CD的64倍。

两者相比，PCM和DSD其实各有千秋。一方面，DSD技术的数据采样记录方向更为“线性”，时间密度也更高，采集到的数据量也先天较大，因此即便是SACD所采用的（最常规、入门的）DSD64音频，对比CD这样的传统PCM音频，在多个方面也都已经具有优势；而另一方面，无论PCM还是DSD，最终的声音品质其实还是取决于数据量，而数据量又直接取决于使用的采样率和位深，因此采用更高采样率和数据位深、数据容量更大的PCM音频，在听感上其实也一样可达到“极高清”；并且，音频的后期制作，编码、解码时芯片的时钟精确度等技术问题，也都会对音频的最终播放品质造成影响。

事实上，对于消费者们来说，对待PCM和DSD音频，其实也没必要一定要分出个结果。目前市面上的高清音频，依然是以各类PCM音频为主流，但也不乏以DSD形式发行的作品，因此，一台能够同时玩转PCM和DSD读解播放的高品质数字播放器，无疑将会是发烧玩家们不可缺少的数字音源。

相比于WAV，DSD虽然是理论上的信息量升级，但也为解码设备的性能带来了更大的挑战。不开玩笑的说，有一套能够发挥真正DSD实力音响设备的人，笔者身边的专业用户都很少，更别提便携听音了。Hi-Fi设备并非玄学，它也是一分钱一分货的。就像很多人玩手游都能充个万八千一样：如果舍不得钱一步玩到位，那就一点一点升级Hi-Fi设备。如果把自己限制在一定范围内，永远无法发现外面世界的美好。