找回密码
 -注册-
查看: 57800|回复: 86

采样率,位深,码率,无损音乐,写给小白的科普 (申精)

[复制链接]
发表于 2020-2-5 01:45 | 显示全部楼层 |阅读模式 来自 美国
本帖最后由 一枚粘豆包 于 2020-2-5 01:50 编辑

昨天逛论坛时看到有同学 @GSM 问为什么mp3转成wav或者flac听不到音质变化。解释了一番以后感觉不如专门发一篇帖子来系统的讲解一下数字音乐的原理,遂有此文,有什么错误和遗漏还请不吝指教。

我们知道声音是由于物体振动产生的,而声音的传播必须发生在一定介质中,声音在介质中传播的形态是波,声波是一种机械波。

人们为了能够存储声波,发明了模拟介质。黑胶唱片和磁带,其本质都是通过电磁波来模拟机械波。如果把唱片的沟槽放到显微镜下,我们能看到声音本来的波形,这种波形是连续的。

模拟介质的缺点显而易见,体积大、难以随身携带、传播过程中抗干扰性差(模拟电视的雪花点, 广播的杂音等)。于是在上世纪80年代,索尼和飞利浦联合开发了CD。CD是一种全新的存储方式。它的原理是对连续的波形进行取样,也就是用波形上离散的点来代替连续的波(联想一下一张照片被放大很多倍后看到的一个个小颗粒,像素)。

采样过程中的概念主要有以下几点:

1. 位深

显然,我们放上去的点越多,采样就越精细,这个采样精度我们称为位深,用bit来表示(1个bit代表一位二进制)。我们可以这样理解,假设采样率是1bit,那么转换后的音轨只有0和1这两个点,也就是我们在用方波表示正弦波。毫无疑问更高的点,更低的点和中间的点就都丢失了,我们损失了动态范围。1bit = 6.02db的动态范围。而CD的采样率是16bit,也就是有2^16=65536个点,这样的音乐对于大部分人耳来说已经是难以分辨了,动态范围达到了96db。然而实际听音环境下因为有噪音等等,是达不到这个范围的。于是才有了24bit,甚至32bit的音乐。

2. 采样率

如果我们把波形放到坐标系里,位深相当于纵坐标的精细度。而横坐标的精细程度则称为采样率。想象一段每秒振动20000次的声波,如果我们每秒只能采集10000次,那我们就漏掉了其中的10000次振动,也就丢失了信息。人耳能听到的频率在20-20000Hz之间,根据香农的采样定理(也叫奈奎斯特定理),当采样率大于等于一段波形最高频率两倍时,我们就可以不失真的表示这段波形。CD的采样率44.1kHz = 44100 > 20000 * 2。至于为什么是44.1而不是40,一方面是留出一定空间给抗混叠滤波器,另一方面则是为了兼容PAL和NTSC视频制式。

3. 比特率

最后,用 位深 * 采样率 * 声道数 就得到了一段音频的比特率(码率),也就是每秒通过的比特(bit)数。以CD来举例,16 * 44.1k * 2 = 1411.2 (kbps)

我们平时的解码器(DAC),实际上就是把这个采样的模-数转换过程逆过来,也就是数-模转换。

至于音乐格式,wav是微软和IBM联合设计的存储波形的格式。标准的wav格式和CD格式相同,所以我们常称之为无损音乐(其实这个说法是不严谨的),当然wav也可以存放更低码率的音乐。

wav的最大缺点是体积太大,在早期存储设备容量偏小的情况下,wav显然是很不理想的。于是人们就开发了各种压缩算法,比如mp3, wma等等。mp3这种格式可以极大的压缩占用空间,但是压缩过程中去掉了一些信息,于是这个过程就叫做有损压缩,相对应我们管mp3叫有损音乐。(常见码率有128kbps和320kbps)

当大家的硬盘越来越大,很多人就不满足于mp3压缩的音质,但同时仍觉得wav太大,这时就出现了flac和ape等大家熟悉的无损格式。所谓无损,是因为wav在压缩成flac时并没有损失任何信息。这个过程是无损压缩,并且flac可以完好的解压缩成wav。想象一下我们把文件压缩成zip或者rar,解压缩过程显然不会损失任何信息。

这也就解释了为什么那位同学mp3转换成wav和flac听不出区别了,因为mp3已经丢失的信息是补不回来的。除此之外我们还常听到升频的概念,其实最简单的升频就是把我们采样后的每两点之间插入1点,也就是插值法,当然我们也可以插入更多的点。但是请注意,升频后多出来的点,是我们计算出来的,而不是原始信息,也不一定能够代表原始信息。所以升频是否能带来正面的作用见仁见智。

最后,欢迎大家讨论指教。

@流氓才子 大哥你看这篇文章可以申精吗?
发表于 2020-2-5 02:20 | 显示全部楼层 来自 美国
本帖最后由 脑洞略大 于 2020-2-5 02:22 编辑

有研究认为人耳确实无法分辨16/44.1和24/96音频,但往往商业的24/96录音的确有可闻的更好音质。
有假说认为这是由于24/96等音乐格式默认就是卖给发烧友的,所以音频工程师们在制作时就比较用心。这个假说的结论是,数字录音的制作水平的影响可能要大于格式本身。
回复

使用道具 举报

 楼主| 发表于 2020-2-5 03:19 | 显示全部楼层 来自 美国
脑洞略大 发表于 2020-2-5 02:20
有研究认为人耳确实无法分辨16/44.1和24/96音频,但往往商业的24/96录音的确有可闻的更好音质。
有假说认 ...

音乐制作似乎确实有很大效果 我有一套remaster过的贝交,能听出来比红卡好很多
回复

使用道具 举报

 楼主| 发表于 2020-2-5 03:20 | 显示全部楼层 来自 美国
jimguo 发表于 2020-2-5 02:39
以前有说法说,人耳分辨率有天花板。现在来看,完全是古代那阵子的商业语言。也就是验证不对等,蒙你没商量 ...

很少有同一曲子不同码率,不然对比起来应该容易很多
回复

使用道具 举报

发表于 2020-2-5 03:57 | 显示全部楼层 来自 江苏南京
好文,感谢
回复

使用道具 举报

发表于 2020-2-5 04:03 | 显示全部楼层 来自 美国
jimguo 发表于 2020-2-5 03:59
阿卡多迪图瓦合作的帕格尼尼小协全集,已经有24bit的了。类似的有不少。

其实真没必要非用同一首才能 ...

老前辈,建议您还是专注于分享音乐吧。那是您擅长的事,令人充满敬意。
回复

使用道具 举报

发表于 2020-2-5 04:35 | 显示全部楼层 来自 美国
jimguo 发表于 2020-2-5 04:06
还是别这样了。楼歪了啊。管好自己为上。不要老记住以前开玩笑的事。讲话一定要围绕问题,不要老喜欢出圈 ...

楼歪了啊。(然后您自己楼下就歪楼?)

讲话一定要围绕问题,不要老喜欢出圈儿。横插一杠子想堵别人的嘴就开启暴力模式了。(您说错了,不让别人反驳吗?到底是谁想堵别人的嘴?)

别人前面说的你没好好看,或者看了也没理解,你才发出这种前后文不搭的想法。(我决定把您错误的发言像这样逐条反驳,以证明我好好看了您的每句话。)

在逻辑上这是表示一个人话讲歪,就是对问题本身根本没信心,想横出去砸回来,掀棋盘耍赖。(从逻辑上,您这句话不知所云。)

现实里不敢这样做,论坛上也别老搞这种很少有正经人做的想法。(从逻辑上,您这句话还是不知所云。)

养成巴甫洛夫条件反射的习惯就坏了。(不好意思,我的确看到您有关技术问题的发言就忍不住。)


回复

使用道具 举报

发表于 2020-2-5 04:57 | 显示全部楼层 来自 美国
对事不对人。把错误言论收集起来。我说错的部分,也请各位斧正。

以前有说法说,人耳分辨率有天花板。现在来看,完全是古代那阵子的商业语言。也就是验证不对等,蒙你没商量。(首先听力不是用“分辨率”来定义的。其次,人听觉的分辨能力当然有极限。这个极限因人而异,但是人群中一定符合正态分布。)

最粗的设备笔记本,加老旗舰拜亚,听更高码率的资源,都能听出来会有更细的解析。这些还都不算什么。相比之下,24-96也就是比下CD搞几倍,但还不如LP的一种阶段性存在。
(玄学词汇就不讨论了。但LP的客观音质连16/44.1的CD都不如,我之前的帖子已经详述了。)

其实真没必要非用同一首才能听出解析的差距,不是同一个版本一样能听出差距。即便同等CD无损,也是DG的同期录音解析高。听的多了自然能分辨。也可能至少要用拜亚990这个等级的耳机。
(你所谓的“分辨”,连控制变量的实验条件都不需要?)

目前DSD的码率很高,听上去解析就很高,有临场感。但用一般设备听这类数码文件,总是觉得声音音色偏硬听不惯,不如pcm的自然。最后只得更多的听pcm高码率文件了。
(DSD的解码是通过DoP还是native的确会有区别。但请问您的叙述是基于盲听吗?非盲听状态的听感就没必要谈了。)

“无损音乐” 只是对实体盘抓轨到数码压缩文件的一种说法。这些年常用于对CD光盘抓轨文件的描述。
(LZ的对无损的定义是对的,您说的不对。)

还有相关的数码音乐压缩文件格式,常见的有FLAC,APE,还有一些其它的压缩格式。最直接的就是WAV格式,不是压缩的无损而是直接的波形。一般从播放目录文件的.cue文件里可以看到,FIIE “文件名.flac” WAV 语句,意思是播放时解压还原到WAV。
(关于WAV,LZ是对的,您说的不知所云)

所以,无损并非只是对CD一种介质的压缩,对其它介质也可以这样称呼,LP也有抓轨数码文件。现在流行的24-96,24-192文件很多也都是常用FLAC无损压缩格式。当然也有用APE的,也有直接的WAV 24-96,24-192。也听过m4a的高码率文件,但效果有限。
(Again,LZ的对无损的定义是对的,您说的不对。WAV/FLAC/APE/M4A都是文件的封装格式,和位深采样率没有关系,和是不是无损也没有关系。也许您知道,但您的叙述概念不清。Again,非同文件转格式盲听,不要谈效果。)

回复

使用道具 举报

发表于 2020-2-5 05:03 来自手机 | 显示全部楼层 来自 法国
艾玛,居然还新开一贴普及啊,厉害了
回复

使用道具 举报

 楼主| 发表于 2020-2-5 05:17 | 显示全部楼层 来自 美国
有只野猫 发表于 2020-2-5 05:03
艾玛,居然还新开一贴普及啊,厉害了

一直想写一贴 写完了自己也更清楚了
回复

使用道具 举报

发表于 2020-2-5 05:45 | 显示全部楼层 来自 法国
一枚粘豆包 发表于 2020-2-5 05:17
一直想写一贴 写完了自己也更清楚了

赞赞赞
回复

使用道具 举报

发表于 2020-2-5 06:35 来自手机 | 显示全部楼层 来自 北京平谷
感谢楼主!一看到这个题目就想到我自己的问题了哈哈哈 居然还被点名了 以后要多多学习理论知识 多收集一些好的音源来听才好!
回复

使用道具 举报

发表于 2020-2-5 06:49 来自手机 | 显示全部楼层 来自 北京平谷
有个小问题 楼主 我把flac的音频文件 在foobar里转换成wav 为啥转换出来显示的是pcm格式啊 pcm是什么?怎么转不出wav呢 反而那个mp3能转成wav格式
回复

使用道具 举报

 楼主| 发表于 2020-2-5 09:26 | 显示全部楼层 来自 美国
GSM 发表于 2020-2-5 06:49
有个小问题 楼主 我把flac的音频文件 在foobar里转换成wav 为啥转换出来显示的是pcm格式啊 pcm是什么?怎么 ...

pcm是脉冲编码调制,我们这篇帖子讲的采样就是pcm方法。wav也好,flac也好,都是pcm采样。相对应的是dsd。采样的原理不同
回复

使用道具 举报

发表于 2020-2-5 09:42 | 显示全部楼层 来自 浙江
科谱好,看了许多文章也没搞明白,多多科谱,学习了。
回复

使用道具 举报

发表于 2020-2-5 10:02 来自手机 | 显示全部楼层 来自 中国
mark学习了!
回复

使用道具 举报

发表于 2020-2-5 10:25 | 显示全部楼层 来自 浙江杭州
GSM 发表于 2020-2-5 06:49
有个小问题 楼主 我把flac的音频文件 在foobar里转换成wav 为啥转换出来显示的是pcm格式啊 pcm是什么?怎么 ...

假设音频信号是一个函数的话,PCM就是把每个点的值给你,
DSD就是把每个点的导数给你。
PCM和DSD是信号格式,不是文件格式。文件最终都会被转化成信号输出。
回复

使用道具 举报

发表于 2020-2-5 11:11 | 显示全部楼层 来自 广西南宁
留一个记号。
回复

使用道具 举报

发表于 2020-2-5 11:48 | 显示全部楼层 来自 上海
所以,1bit和24bit哪个音质更好?
回复

使用道具 举报

发表于 2020-2-5 12:00 | 显示全部楼层 来自 美国
ellison009 发表于 2020-2-5 11:48
所以,1bit和24bit哪个音质更好?

这个部分我也不懂。所以我买了台SACD。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | -注册-

本版积分规则

Archiver|手机版|粤icp备09046054号|耳机网-耳机大家坛

粤公网安备 44030602000598号 耳机大家坛、www.erji.net、网站LOGO图形均为注册商标

GMT+8, 2024-12-12 15:09

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表