Blindness separates us from things but deafness from people
– Immanuel Kant
1. 什么是心理声学
1.1 心理声学定义:
如果说声学是从物理的角度研究声音,那么心理声学就是客观物理世界与人的主观认知之间的桥梁,是声学的一个分支。心理声学就是研究人对于声音这种客观存在现象的主观体验。
2. 心理声学的主要参数
2.1 响度:
响度纯物理量,属于对声音的强度感知的范畴。注意是声音的强度而不是物理量声强(Sound intensity)。而响度级则不同于响度,不仅和感知相关,而是介于感知和物理量之间。由于我们人耳的特殊构造,导致了我们听同等强度,不同频率的声音,感知到的强弱不一样。请看下图10-1000Hz之间的所有红色曲线(x轴是频率,单位赫兹Hz):频率越低,想达到同样响度需要的声压级越高。Threshold对应的那条线,20Hz和1000Hz对应的声压级差可以达到70dB左右。意思是,在这个频段,频率越低,人的感知越不敏感。
因为人耳的听觉特性,所以响度和频率相关。推导响度之前,要先知道响度级。在声波为平面波,并且从人耳前方入射时(注意这是个非常严苛的条件!当不满足这个条件的时候,上述等响曲线不再适用),响度级以1kHz的纯音声压级为参考,假如一个500Hz的纯音信号经过人的主观感受之后,和50dB的1kHz纯音听起来强度一样,那么这个500Hz纯音的响度级就为50phon,phon为响度级的单位。见上图:把频率拓展到全频,就有了一根完整的曲线;拓展1kHz纯音到不同的声压级,因此就有了纵轴上的各条曲线。40dB的1kHz纯音的响度定义为1sone。当频域在bark scale表示的时候,响度不止和频率有关,还和时域包络 (temperal envelope)有关。看图中的红线竖线。50Hz的纯音信号,当它50dB的时候,它的响度级为20phon,0.15sone(对应1kHz的20dB);而当它110dB的时候,响度级就变成了100phon,64sone。
2.2 尖锐度:
描述纯音色彩的量,也就是尖锐程度,基于响度计算。
2.3 粗糙度:
可以被描述为声音时域掩蔽模式的参数,和信号时间变换快慢有关。汽车工业中,可以用来判断一个声音是否“sporty”。
2.4 抖动强度:
和粗糙度定义类似,主要区别在于,抖动强度在调制频率在4Hz的时候达到最大(粗糙度为70Hz),和人说话时候声音波形的抖动相似。4Hz也是人每秒发出的音节个数相当,因此人的听力系统对这个4Hz的调制频率也最敏感[2]
3. 心理声学的研究方法
3.1 主观评价
心理声学参数都是从人的主观评价中获取的,也就是通过作主观评价实验。在做实验之前,都需要做一下检测人耳听力能力的实验——Audiometry。简单说,就是播放不同频率的纯音信号,信号强度从小到大(或者从大到小),当刚刚听到信号(或者刚刚听不到信号)的时候,按下按钮,记录下此时的声压级。下图为作者在刚上博士的时候测得Audiometry。
可以看出来,4kHz以下,左耳(蓝色)需要比右耳(红色)更大的声压级——左耳更聋一些。而水平的两条线,黄线以下,黄牌警告;红线以下,红牌警告。也就是说,作者的左耳在500-1500Hz区间,听力很差,尤其是1500Hz时,30dB以下的声音完全听不见。
测完Audiometry后,被试者被要求进到听力实验室。可以看到里面有音响回放被听信号,当然也可以用耳机。
3.2 随机评价
随机评价(Random access):被试者被要求听从A到F六段声音,然后按照声品质从好到坏1-6,把对应的声音拽到相应的数字下面。被试者可以重复听每一个声音样本。
3.3 语义差异
语义差异 (Semantic differential),被试者根据听到的声音,选择和自己感觉对应的词汇。
3.4 Category scaling
通过听声音样本,根据给定的词语和其对应的一定范围之内的数值,给所听声音打分。
3.4 幅值估计
幅值估计 (Magnitude estimation)。给出参考信号的幅值,估算另一个声音信号的幅值。
4. 心理声学能干嘛?
简单来说,心理声学的用途是评价声音的品质即音质。相信这也是大部分人最感兴趣的一部分。但音质这个概念也无法用物理学中的概念去定义与描述。
…the term sound quality describes the perception of the adequacy (Blauert and Jekosch, 1997), suitability (Guski, 1997), or desirability (Västfjäll and Kleiner, 2002) of a sound attached to the technical object emitting it.
声品质描述人对于一个科技产品产生的声音的适当性、合理性或者期望性的感知。
评价声品质,主观评价是不可或缺的一环。主观评价,我们当然要以人作为实验的主体。但是,很多情况下我们不能很方便地叫人去听要评价的声音。一方面,作人的听力实验耗时耗力;另一方面,人听完就是听完了,没有记录下来,没有办法作下一步客观计算和评价。这个问题,可以被双耳技术解决。通过双耳录音,可以方便地进行计算,任何物理量或者心理声学参数。而通过录制多个待评价的声音事件,再组织人去做听力实验室做听力实验,可以利用这一组人作多个听力实验,同时实验室的条件更加可控,可以让所有人在同样的安静环境下去听去评价。
5. 心理声学研究技术——双耳听觉 (Binaural hearing)
这项技术在1960年以来得到了快速发展。其中首当其冲的功臣就是——人工头,英文叫dummy head,也叫artificial head,或者Head and Torso Simulator,德语名为Kunstkopf。通过人工头录制声音样本,供后续计算或者听力实验。其原理并不复杂。外形上,一个人头加上耳朵,再加上上半身;耳道的尽头是两个麦克风,从而模拟人的双耳听觉。声音在上半身、头、耳廓、耳道中发生一系列的反射、衍射、共振后,传到麦克风。因为有两只耳朵和这一系列声音传播过程中的现象,人才能得以定位和感知声音。当然,感知还要考后台的大boss——大脑来搞定。这一系列的现象,可以体现在一个神奇函数中,也就是心理声学领域大名鼎鼎的HRTF——Head-related transfer function,头部相关传递函数。自由场的HRTF计算如下:
传到两个耳朵的声压和没有脑袋但是脑袋中间位置采集到声音的声压的比值 [7]
再看一下,当把音响放到人工头的左侧,采集到的声音是什么样的:左耳声音的幅值更大,右耳相对左耳有延迟 [6]
试想,当你的手中只有一个单通道麦克风采集的声音,如何给被试者听到空间感?进一步,如何把采集的声音放到被试者左前方30°的地方?这个时候,HRTF的作用就体现出来了。把一个左前方30°测的一套HRTF和这个单通道信号作卷积,再用耳机听,你会惊奇的发现,这个声音仿佛就在预设的那个位置左右。HRTF有几个比较大的database:
- RWTH (Institute of Technical Acoustics)
- LISTEN HRTF DATABASE
- http://interface.cipic.ucdavis.edu/sound/hrtf.html
- FIU Dsp Lab Anthropometric Measurements of HRTF’s
- Odeon, HRTF – Odeon
- MIT, HRTF Measurements of a KEMAR Dummy-Head Microphone
HRTF一般采集于人工头周围的各个角度,有不同的分辨率(1-5°)。HRTF和人工头的出现,极大地方便了心理声学的主观和客观评价。然而他们各自有局限性。人工头的尺寸为人类头部的“平均”构造,既然平均,所以不能代表每一个个体。带来的弊端就是,用人工头测得的HRTF,里面记录的声音在人头部处的反射、衍射和共振并不是和发生在个体身上的完全一致,所以并不准确,导致空间感的感知会出现偏差。
6. 提琴主观评价:双盲测试
上述有关心理声学试验与测试的用途有很多,但其中最主要的一条就是:和别人打赌赚钱!我们暂且不提提琴,因为制琴圈子里各个都是人才,说话又好听我超喜欢他们的。而当我们遇到音响发烧友,俗称老烧的时候。当我们被各种专业名词绕晕的时候,不妨和他们打个赌。例如,我打赌你根本听不出来火电与水电的区别,包括线材和大部分花好多钱组建的HIFI系统。方法就是双盲测试。(知乎ID:鬼斧神工119就是这么干的)如果你想一夜暴富,赚大钱登上人生巅峰的话一定要学习好心理声学。(被打了请不要透露以上信息来自于本站)以下为正文:
6.1 主观评价盲测(高配版)
2017年3月24日,北卡的杜克大学审批通过了一篇论文《Listener evaluations of new and Old Italian violins》。距1号作者来自法国的Claudia Fritza女士首次开展本课题已过去了7年。从申报开始到审批通过也花了四年时间。恭喜她取得了学术机构的认可,同年双喜临门。还在坚持上课,真不容易。
她不是一个人在战斗,课题组的人员与资源来自让-勒朗德阿勒姆伯特研究所,法国国立大学,皮埃尔和玛丽居里大学,法国巴黎中央研究院,索邦大学。核心三人组之外的两位是Oberlin的Joseph Curtin,还有他的老朋友来自D’Addario的Fan Tao。就酱紫,声学研究者,制琴师和声学工程师组成核心三小强战斗组。
法国大学和美国小提琴协会都给到了经费支持。邀请专业的演奏家做听众;使用严谨的统计学规范;心理学问卷设计;租借2把Guaneri和6把Strad;甚至到最后选择了演奏厅作为场地。但这一切并不能阻止自课题组2010年首次实地实验开始来自于各圈的指责与质疑。
时间回溯到2010年,时逢Indianapolis国际小提琴比赛和展会,Claudia Fritza当机立断抓住了这个好机会(当年的颜真是很能打啊)
有耿直的朋友忍不住了说:就这?就这渣画质?就算借到了strad又如何?在酒店大床房里蒙着床单这算是搞毛线。这么lowB的实验一定不科学,这种结果开什么玩笑绝对不能认。Claudia Fritza此刻的心情可能是复杂的,例如‘一毛钱经费都还没有着落老娘自己和两个哥们凑的钱,你们还要什么自行车!’
2012年,法国提琴演奏家Hughes Borsarello看到了strad酒店蒙床单相关文章也是这么想的。大怒,不光对声场提出质疑还指出了不能随便找一把strad就来做盲测这不公平也不科学。和其他骂娘的其他人不一样的是,这位好心人骂完了之后打通了Claudia Fritza的电话,表示愿意提供更好的实验条件与样本。下面这位大家一定要记住,他成为一个转折点。
九个月之后,巴黎近郊的有钱人家里。十位著名演奏家;两位古董提琴商;6把匿名处理的近代提琴和6把黄金时期的Strad;2把1740年的Guaneri聚到了一起:
这时又有耿直的朋友说了,这个声场比廉价酒店强。但是Strad之所以是Strad是因为声音的投射性。有一种神奇的体验是当在演奏厅时,演奏者本人会觉得名古琴的近距离声音比新琴小,但是远传性可以传递到第六排之后。而现代琴做不到这一点。( Frank Almond (who plays a Stradivarius), “a peculiar (and sublime) aspect of great old Italian instruments is that the sound somehow expands and gains more complexity from a distance, especially in a concert hall.” He contrasts this with many modern instruments, which seem to have a large sound under the ear but may not “carry past the sixth row”)
2012年,阵容再次升级。参与盲测的演奏家有:Yi-Jia Suzanne Hou, Ilya Kaler, Tatsuki Narita, and Giora Schmidt:有钱真好,既然有耿直的朋友说六排之后远传性的问题那这次就专门测六排之后的事。又有耿直的朋友说,strad的能量要与其他乐器配合时才能发挥全部功力。在这次的盲测中,除了钢琴,一个乐团也安排上了。(中间有段八卦是上海老乡Suzanne Hou等不及结束就开始问了好几遍‘刚才我试的某某号琴到底是古琴还是新做的,谁的琴,卖不?夺钱儿?可能搞错了成东北老乡了)
2013年,NHK电视台联系到Claudia Fritza说最近台里想拍个记录片。对她的盲测很感兴趣,结果就又在纽约来了一次:
这些大家应该都满意了吧?然鹅。。。再次又有耿直的朋友挺身而出说,strad之所以是strad,是因为经历了几百年的时间。而现代的小提琴虽然现在声音很好,谁知道一百年后会变得如何?。。。
最后放上论文中的实验结论:“结果是毫不含糊的:听众发现新小提琴的演奏投射效果远传性明显好于Strad。此外,在音色上听众更喜欢新的小提琴而不是旧的小提琴。尽管听众来自不同的专业背景(这里的听众包括演奏家、制琴师和声学研究者),但所有背景的结果都非常相似。”
说到时间,这确实是一个重要的维度。如今已是0202年,对于提琴声学与盲测的质疑仍在继续。就像小提琴诞生伊始就遭到教廷与皇宫的批判一样,经历了两百年之后才逐渐平息,曾经殿堂上的维奥拉琴家族已经离开了历史舞台。科学看起来并没有让这一进程变得更快。小提琴与提琴家族目前仍是人类手工业创作的巅峰作品,在面对工业化和计算机人工智能的时代维护着人类手工业与演奏艺术最后的尊严。在坚决站在人类这一边的情况下,希望无论输赢都要公平竞争才对。
“弱小和无知, 不是生存的障碍。傲慢与偏见才是。”——某著名工程师
对于网管(网站管理员)这样一个买不起Strad的普通听众来说,这个课题并没有什么应用价值。更重要的是,论文的结论是建立在一个基础上,即:人的听力是可以准确判断出什么是一把好的小提琴声音的。我毫不怀疑这一点。古琴还是新琴?当然哪个好听就听哪个。没有新古的对立,只有好琴还是差琴而已。群众们的耳朵也都是雪亮雪亮的。然鹅自用的话,惭愧,老琴还是真香啊。看来想要完全理性与客观这辈子都是不可能的。即使知道自己的认知受到声音之外因素的影响但还是免不了选择摸上一把古琴。就像手表一样,可能就是有那么一小群人无论电子表再精准也还是会选择佩戴与收藏古董机械手表吧。最后镇楼专用图:
“宇宙间每一个角落都有一块表在按照不同的时间运行,而我穷的连一块都买不起。”——某专利局钟表部职员
6.2 主观评价盲测(低配版)
在理想条件下(不差钱儿)能使用上述方式进行提琴主管音色评价灰常好。但是否有必要在现场试听,这仍然是一个值得讨论的问题。网管觉得在一些必要的规范下,使用同样参数的录音文件和统一的收听设备一样可以得到有意义的统计结果。毕竟,如果科学与先进的技术只能让实验门槛越来越高的话。要这些玩意还有毛用。(其实只是因为穷…)
抱歉没有琴的照片因为。。。这是盲测。
音频采集 说明文档
- Near Mic Distance 50cm Height 173cm;Far Mic Distance 104cm Height 205cm;两个Mic都是:SE Electronics S8;Room Size 654x476x274 cm;软件:PT & Konakt;无后期混音。
- 同一人,同一把弓演奏的:五把不同的小提琴。每一把琴都录制了如下段落GDAE:四条空弦;Scale:音阶;Scale vba:揉弦音阶;Solo1:GD;Solo2:AE和Solo Harmony:泛音。
- 完整音频数据包尺寸较大,只选取以上的音阶与两段solo。收听设备:建议至少别用电脑和手机自带的扬声器,也不要用渲染效果好的音响。推荐收听设备铁三角M50。那么问题来了你觉得下列哪把琴听起来好听呢?五把琴的价格区间最大差别约1000倍;你能听到人民币的声音吗?
在各类社交网络平台上一顿操作猛如虎之后,网管收集到20份有效问卷。(听力测试正弦波听不到8khz的就算了吧)结果还是非常有趣,发现了更客观仪器测量更值得讨论的话题。例如:
- 听力异常敏锐的小朋友不适合小提琴
- 年纪大到听力下降了可能有些人才会觉得小提琴真香;
- 职业小提琴演奏者的耳朵可能都不太好使了;
- 耳朵好使的都去改行中提琴,大提琴或者干脆Bass了,他们更喜欢低音乐器;
- 职业演奏者会带有更多主观音色审美和流派上的个人喜好,反而广大普通听众的耳朵对不同音色的接纳程度更高。
最重要的是这次的盲测验证了一种可能性:小提琴好听不好听和价格关系不是那么大。可能,正是由于这种情况让提琴声学研究者普遍被广大提琴爱好者所厌恶。常见遇到的一种情况是,某地爱好者大老远跑过来要对一把琴做评测。等到做完主观与客观评测之后总是猴急的问这把琴怎么样,您觉得值多少钱?网管虽然内心觉得就这破琴白给我也不会用,但还是出于礼貌的回复“由于本人不懂制琴工艺,一定要作为爱好者说说的话,粗略估计大概值人民币五千大元。”此刻,访客一般会立刻面部晴转多云。因为这可能是人家花了一个超乎你想象力的数字买来的。血泪教训请同学们牢记,古人云“谈钱伤感情”诚不我欺呀。
References
封面图片来自亚琛工大的声学技术研究所
- Zwicker, Eberhard, and Hugo Fastl.Psychoacoustics: Facts and models. Vol. 22. Springer Science & Business Media, 2013.
- Blauert, Jens, ed.Communication acoustics. Vol. 2. New York:: Springer, 2005.
- [3] Otto, Stefanie, and Stefan Weinzierl. “Comparative simulations of adaptive psychometric procedures.”Jahrestagung der Deutschen Gesellschaft für Akustik(2009): 1276-1279.
- [4] WhisPER. A MATLAB toolbox for performing quantitative and qualitative listening tests.
- Kang, Jian, and Brigitte Schulte-Fortkamp, eds.Soundscape and the built environment. CRC press, 2018.
- Janina Fels. RWTH Course: Medical Acoustics.
- Vorländer, Michael.Auralization: fundamentals of acoustics, modelling, simulation, algorithms and acoustic virtual reality. Springer Science & Business Media, 2007.