如何看待人工智能用于配音?
关注《创新中国》纪录片用人工智能复原李易老师的声音,这项黑科技是新时代的创新还是对人性的挑战?
AI 语音技术还有哪些落地的方向?
人工智能语音技术逐渐在人类生活中普及,AI技术得到越来越多人的关注。最近看到央视《创新中国》纪录片发布会,其中最大的亮点就是这部纪录片的配音还原了已逝的李易老师的声音。由此我对合成人声这项技术提出几个疑问:
1. 李易老师是著名配音员,音源数据庞大,合成人声究竟是靠音段拼接还是机器模拟,像老百姓这样没有大量音源数据的人可以完成这项技术吗?
2. 合成人声最大的问题在于声音的真实性,而与逝者对话的关键就在于情感的表达,它又将如何实现?
3. 合成人声这项技术可以应用在哪个技术领域以及给人类带来怎样的便捷?同时,它是否会像克隆技术一样给人类带来某些方面的危机?
最美的风景 认可
1. 李易老师是著名配音员,音源数据庞大,合成人声究竟是靠音段拼接还是机器模拟,像老百姓这样没有大量音源数据的人可以完成这项技术吗?
答:采用参数合成方法,只需要5小时甚至更少就可以合成比较好的效果。
2. 合成人声最大的问题在于声音的真实性,而与逝者对话的关键就在于情感的表达,它又将如何实现?
答:理论上只要能从文本上分析出情感,就可以实现,但目前还没有解决,顶多可以由人工实现标注出情感标签来实现。语音合成擅长产出风格一致的语音(同一发音人),而缺少变化。正因如此,李易老师、任志宏老师、李立宏老师这些具备个人特色但又极其规范的发音方式,最容易获得跟其本人发音接近的合成效果,而表现力丰富的情况则不易。想象着一部动画片全部由TTS自动配音,是根本无法看的,也就看个故事,无法做到身临其境。
最美的风景 认可
别小看这个进度条, 这个进度条到达100%的时候, 就是黑客帝国矩阵诞生的时候,
计算机模拟虚拟现实世界需要的bit量总量为:
音频A=20kHz*32bit*2 Ear=1Mbps 的采样精度, 这个部分已经完成了, 基本100% 模拟么? 差不多了.
V=视频 4K高清的话, 4k*3k*32bitColor*10Frame*2Eye = 8Gbps
嗅觉细胞按与音频类似. S=A
味觉按与音频类似. T=A
全身触觉按与视觉类似F=V
则目前的进度已经完成了
A, 100%, V, 30%, S, 10%; T, 10% ; F, 10%
所以总进度条为: 0.01%.
(以上数字建议生理神经学家修正补充)
别小看这个进度条, 这个进度条到达100%的时候, 就是黑客帝国矩阵诞生的时候, -- 人类无法知道自己是在现实世界, 还是在睡眠中被绑架到一个矩阵中, 因为所有的感知都无法确认.
唯一防止的方法是, 在自己的一本书上记录自己一个重要的数字, 以及一个密码加密的md5值, 一旦怀疑人生, 就回到自己的家中找到这个密码-- 盗梦空间中称之为"_图腾_".
当然如果一个图腾不够, 就多选几个.
问题是, 发现自己在梦中, 在虚拟世界中 又能如何跳出呢?
1、想要让声音“复活”,必须要借助语音合成技术。语音合成可以进行超大规模音库的制作,包括语料设计、音库录制、精细切分、韵律标注;同时进行规则统计,以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好,一般句子的自然度也不错。
第一个是语音库的制作过程,第二个是使用语音库将文本变成音频的过程。
语音库的制作首先需要收集对方的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。
我们的技术团队与央视纪录频道、专业配音团队通过多次讨论后,确认了这项工作的可行性;并且在已故著名配音演员李易家人的授权和支持下,通过选取搜集以往配音纪录片的可用声音素材、处理和调优,完成了李易老师的音库。
在输入文本后,首先需要按照词典规则对文本进行语言处理。这个过程主要模拟我们真人怎么去理解自然语言,主要目的是为了让机器人能完全明白输入的文本在说什么,还要给出机器后面步骤的发音提示。
接着是韵律处理。人们在说话的时候,声音会根据不同情况有所变化;合成音也需要规划音高、音长和音强上的的音段特征,听起来更加自然、真实。最后根据前两部分处理结果的要求输出语音,即合成语音。
这个算不上黑科技,自从GAN能稳定训练以后,这种由A数据生成B数据的数据生成方法都不再存在大的障碍,就是找到好的样本数据和精细调节参数进行训练的问题了。
1、合成人声究竟是靠音段拼接还是机器模拟:肯定是机器模型,说白了是数据生成。可以根据文本生成语音,也可以根据语音生成语音,本质上,跟用一张图像生成另外一张图像(如生成表情,卡通生成真实图像,真实图像生成卡通等等)没有重大区别。
2、像老百姓这样没有大量音源数据的人可以完成这项技术吗:GAN训练需要大量数据,没有数据找公开数据集,没有数据集就从网上爬,爬不到就没办法了。
3、如何实现:定义一个ground true,让生成的数据跟这个比较,使其最接近。反正所有的机器学习原理都是这个。
4、合成人声这项技术可以应用在哪个技术领域:简单的,可以让自动阅读不再那么生硬刻板,复杂的可以开下脑洞,比如战争时模仿某个公众人物的声音,等等。
5、它是否会像克隆技术一样给人类带来某些方面的危机:无论什么技术都会带来一定危机,比如生产钢铁可以用于战争,生产菜刀可以杀人,但这些都可以在法律框架下控制。