新选择?开放媒体联盟最近推出全新沉浸式音频格式IAMF

早在两三年前,流媒体巨头Netflix宣布在电视上推出AV1编解码器,当时,大家都好奇什么是AV1?AV1是一种先进的编码格式,与其他编解码器进行了比较可发现,AV1的压缩效率有了明显的提高。从数字时代的第一个实用的视频编码标准H.261,到MPEG-2 / H.262成为DVD和标清数字电视的标准视频格式,视频编码标准一直推动着电视高清化和数字媒体技术的发展。2013年,HEVC(High Efficiency Video Coding)视频编码标准的出现,相较于之前的AVC,视频压缩效率提高25-50%,带宽需求更低。

Netflix是AV1编码的早期测试用户之一,用户在使用Netflix App开启节省流量功能时,部分节目将会启用AV1编码进行流传输,相比起原来使用的VP9,它可以节约不少的流量。但说到底,AV1编码到底是谁开发出来的?AV1编码是由开放媒体联盟(Alliance for Open Media-AOMedia)组织开发的,AOMedia组织的目的是为互联网提供开放、无使用费用的技术,成员有亚马逊、思科、Google、Intel、微软、Mozilla和Netflix。该联盟旨在通过制定全新、开放、免版权费的视频编码标准和视频格式,为下一代多媒体体验创造新的机遇,AV1是开放媒体联盟AOMedia开发的第一代视频编码标准。

回顾AOMedia和AV1

开放媒体联盟(AOMedia)已经有八年的历史了,它成立于2015年,是由谷歌发起的下一代编解码器AV1的标准联盟,Chair是AOmedia的现任副总裁。

AOMedia成立的意义在于,通过制定全新、开放、免版权费的视频编码标准和视频格式,为下一代多媒体体验创造新的机遇。作为VP9视频编码的继任者,取代需要专利的HEVC视频编码。

2018年3月28日,AOMedia在官网上发布AV1定稿的消息,并开放了相关规格和参考代码,由此,掀起了一个新的时代。

显而易见的是,AV1的硬件解码器密集发布、AV1软件编码器的开发和持续优化以及多个视频播放平台陆续对AV1的支持,让AV1的生态发展繁荣起来。2020年以来,AV1硬件生态得到显着突破,加入了AV1硬件解码器支持行列的企业有英特尔、英伟达等。也正是有了硬件支持,AV1编码才算是真正拥有广泛应用的基础。硬件生态之外,就是YouTube、Bilibili等视频内容公司来坐阵,得益于此,AV1视频的内容量不断增加

AOMedia已推出全新沉浸式音频格式IAMF

不久前,AOMedia发布了旗下首个沉浸式音频规范IAMF,可以携带回放时间渲染算法和音频混音的信息,而且和旗下的AV1视频标准一样为免版税。

IAMF全称为“Immersive Audio Model and Formats”,指沉浸式音频模型和格式。IAMF是开源的,具有垂直声道、基于人工智能的场景分析以及根据聆听偏好灵活定制内容音频等功能,该格式可用于流媒体、游戏、虚拟现实和音乐电台。

据介绍,尽管3D音频具有诸多优势,但是受限于技术,长久以来它一直难以被应用于家用音频设备中。工程师表示,当前来自影音内容的3D音频信息无法被电视音箱或条形音箱(Soundbar)等家用音频系统正确解读,导致最终呈现出来的音频体验有限。

为此,AOMedia开发出了一种音频解决方案。官方表示,IAMF是开放媒体联盟采用的首个基于开放源码的音频技术标准,这意味着整个行业的企业或个人创作者都可采用这项技术并扩大使用范围。官方称,若设备制造商可以读取3D音频数据,便可调整音频设备中的声音,从而通过家中的标准电视扬声器或音箱,也可以获得“身临其境”的音频体验。

IAMF三大特点

1、垂直表达声音的能力

之前的开源音频编解码器仅支持水平声音表达。借助IAMF技术,音频现在可以垂直表达,从而使声音变得越来越多向。研究人员Nam解释说:“IAMF允许听众听到前方、后方或两侧以及上方或下方的音频,从而使声音更加真实,因此,当IAMF技术应用于家庭电视音箱和条形音箱时,听众可以在家里的电视上听到鸟儿从头顶飞过的声音。”

2、基于AI的场景分析和3D音频效果

IAMF利用人工智能和深度学习技术来分析场景并强调内容的某些方面——调整音频电平以在整个观看体验中增强声音。在电视和电影中,某些场景的配乐或背景音乐是主要焦点,IAMF将平衡这些情况下的声音。同样,当有角色对话时,该技术会微调音频,让听众能够专注于对话。此外,即使设备环境发生变化,IAMF技术也能提供最佳声音。通过根据设备环境调整场景分析音频数据,IAMF技术使听众能够在标准家用电视上享受内容的原始音质。

3、高度定制的音频

通过IAMF技术,用户将能够根据自己的喜好自由调节声音。无论观众想要放大动作场景的音效还是增强对话,IAMF都可以让他们灵活地定制内容音频,以获得更加个性化的体验。据此,研究团队目前正在开发IAMF技术的高级版本,该技术可应用于移动设备、元宇宙、视频游戏等不同领域。鉴于IAMF的成功,研究团队有动力为消费者创造更好的音频技术。每个团队成员都分享了他们对3D音频未来的渴望。

有何亮点

目前,AOMedia的成员中还包括Amazon、Meta、微软、Netflix、腾讯、oppo、Vimeo等内容平台方,这些平台的选择将很大程度决定IAMF的命运。此前,AV1的成功在于AOMedia把多媒体各个关键环节的企业拉到了一起。如今IAMF的出现会有何亮点?

首先,适用于所有设备的空间音频,IAMF可以将基于通道和基于场景的全景声空间音频演示无缝传送到包括耳机、移动电话、电视机、家庭影院和网络在内的各种设备上。这种多功能性确保在各个平台上提供一致的高质量音频体验。

其次,灵活的音频传输,IAMF提供了一种灵活的方法,可以将不同类型的音频元素传输到终端设备上。无论是将3.1.2通道音频与立体声音频相结合,IAMF都可以实现。IAMF提供了一种信号渲染算法(例如EAR和BEAR)的方式,以便在音箱布局和耳机中播放。

第三,AI驱动,IAMF利用人工智能和深度学习技术来分析场景,并突出内容的某些方面,调整音频水平以增强整个观看体验中的声音效果。使用IAMF技术,用户将能够根据自己的喜好自由调整声音。无论观众想要增强动作场景的音效还是增强对话的清晰度,IAMF都为他们提供了自定义内容音频的灵活性,以实现更个性化的体验。

最后,创作者友好,创作者可以使用现有的开源插件,如EAR Production Suite,开始创建符合IAMF规范的沉浸式音频内容,该插件包括多扬声器布局和双耳监控的渲染器。IAMF能够携带并包含多个音频混音配置,使创作者和用户能够根据不同的播放偏好进行可控的响度调整。在不久的将来,AOMedia开源参考软件将添加一种IAMF编码工具,用于将各种音频混音压缩为IAMF。

从AV1开始,AOMedia就在用开放来对抗老牌的标准组织ITU与ISO/IEC的HEVC、VVC等标准。目前,AV1已经成为主流视频平台的主力标准,包括Netflix、Meta、苹果等都在持续扩大AV1的应用部署。同样,IAMF也自然成为对抗商业沉浸式音频方案的主力。

目前,业界影响力最大的沉浸式音频解决方案是杜比(Dolby Atmos),苹果就采用了Dolby Atmos作为自身沉浸式音频的解决方案。考虑到杜比在多媒体生产与消费领域拥有全方位的渗透,苹果选择杜比是顺其自然的。此外,全景声科技也是沉浸式音频主要的解决方案商。

竞争性如何

IAMF是开放媒体联盟采用的首个基于开放源码的音频技术标准,这意味着整个行业的企业或个人创作者都可采用这项技术并扩大使用范围。抛开与其他视频编码格式的技术优劣对比,IAMF打上免版税的标签,已足够让它引人注目。据介绍,AOMedia对于联盟的成员只提出了两项义务:一是,对联盟开发的每一项技术承诺免版税的专利许可。但这并不意味着联盟成员放弃了收取专利费的权利。如果某成员同时加入免版税的AV1和收费的HEVC,对AV1免费授权,仍可以根据HEVC的标准收费。二是,缴纳会员费,用于聘请负责专利评估的律师,审查加入联盟的成员的专利。成立以来,AOMedia的成员基本上都是互联网科技领域的头部企业。目前,已有50多家企业成为联盟成员。其中,华为、腾讯等中国公司是联盟的创始成员。