如何看待人工智能用于配音?

关注

《创新中国》纪录片用人工智能复原李易老师的声音,这项黑科技是新时代的创新还是对人性的挑战?

AI 语音技术还有哪些落地的方向?

人工智能语音技术逐渐在人类生活中普及,AI技术得到越来越多人的关注。最近看到央视《创新中国》纪录片发布会,其中最大的亮点就是这部纪录片的配音还原了已逝的李易老师的声音。由此我对合成人声这项技术提出几个疑问:

1. 李易老师是著名配音员,音源数据庞大,合成人声究竟是靠音段拼接还是机器模拟,像老百姓这样没有大量音源数据的人可以完成这项技术吗?

2. 合成人声最大的问题在于声音的真实性,而与逝者对话的关键就在于情感的表达,它又将如何实现?

3. 合成人声这项技术可以应用在哪个技术领域以及给人类带来怎样的便捷?同时,它是否会像克隆技术一样给人类带来某些方面的危机?

 |  5年前 举报  | 
×
line
点击右上角
分享给朋友和朋友圈
liulanq
分享
最美的风景 1082015

最美的风景

最美的风景 认可

针对题主的几个疑问作答:

1. 李易老师是著名配音员,音源数据庞大,合成人声究竟是靠音段拼接还是机器模拟,像老百姓这样没有大量音源数据的人可以完成这项技术吗?
答:采用参数合成方法,只需要5小时甚至更少就可以合成比较好的效果。

2. 合成人声最大的问题在于声音的真实性,而与逝者对话的关键就在于情感的表达,它又将如何实现?
答:理论上只要能从文本上分析出情感,就可以实现,但目前还没有解决,顶多可以由人工实现标注出情感标签来实现。语音合成擅长产出风格一致的语音(同一发音人),而缺少变化。正因如此,李易老师、任志宏老师、李立宏老师这些具备个人特色但又极其规范的发音方式,最容易获得跟其本人发音接近的合成效果,而表现力丰富的情况则不易。想象着一部动画片全部由TTS自动配音,是根本无法看的,也就看个故事,无法做到身临其境。

3. 合成人声这项技术可以应用在哪个技术领域以及给人类带来怎样的便捷?同时,它是否会像克隆技术一样给人类带来某些方面的危机?
答:TTS是语音交互不可缺少的一项技术,而语音交互也将是下一代人机交互的主要方式。至于危机,跟所有其他号称人工智能的技术一样,也许有一些,比如使一部分人失业、比如声音伪装欺诈,但魔高一尺道高一丈,总有化解的办法。


↑收起
5年前 回复(0)
最美的风景 1082015

最美的风景

最美的风景 认可

向虚拟现实方向又走近了一步. 进度条达到了0.01%.

别小看这个进度条, 这个进度条到达100%的时候, 就是黑客帝国矩阵诞生的时候,

计算机模拟虚拟现实世界需要的bit量总量为:

音频A=20kHz*32bit*2 Ear=1Mbps 的采样精度, 这个部分已经完成了, 基本100% 模拟么? 差不多了.

V=视频 4K高清的话, 4k*3k*32bitColor*10Frame*2Eye = 8Gbps

嗅觉细胞按与音频类似. S=A

味觉按与音频类似. T=A

全身触觉按与视觉类似F=V

则目前的进度已经完成了

A, 100%, V, 30%, S, 10%; T, 10% ; F, 10%

所以总进度条为: 0.01%.

(以上数字建议生理神经学家修正补充)


别小看这个进度条, 这个进度条到达100%的时候, 就是黑客帝国矩阵诞生的时候, -- 人类无法知道自己是在现实世界, 还是在睡眠中被绑架到一个矩阵中, 因为所有的感知都无法确认.


唯一防止的方法是, 在自己的一本书上记录自己一个重要的数字, 以及一个密码加密的md5值, 一旦怀疑人生, 就回到自己的家中找到这个密码-- 盗梦空间中称之为"_图腾_".

当然如果一个图腾不够, 就多选几个.

问题是, 发现自己在梦中, 在虚拟世界中 又能如何跳出呢?


↑收起
5年前 回复(0)
最美的风景 1082015

最美的风景

您关注到了这部纪录片的一个亮点:那就是配音还原了已逝的“配音大师”的声音。这是全球第一部全篇采用人工智能配音的纪录片。我们利用了智能语音和人工智能技术,让已逝的著名配音艺术家李易老师的声音重现荧幕,完成了整部纪录片的配音。

1、想要让声音“复活”,必须要借助语音合成技术。语音合成可以进行超大规模音库的制作,包括语料设计、音库录制、精细切分、韵律标注;同时进行规则统计,以此来针对不同发音人进行细致调整。这样合成出来的音频音质比较好,一般句子的自然度也不错。

第一个是语音库的制作过程,第二个是使用语音库将文本变成音频的过程。

语音库的制作首先需要收集对方的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。

我们的技术团队与央视纪录频道、专业配音团队通过多次讨论后,确认了这项工作的可行性;并且在已故著名配音演员李易家人的授权和支持下,通过选取搜集以往配音纪录片的可用声音素材、处理和调优,完成了李易老师的音库。

在输入文本后,首先需要按照词典规则对文本进行语言处理。这个过程主要模拟我们真人怎么去理解自然语言,主要目的是为了让机器人能完全明白输入的文本在说什么,还要给出机器后面步骤的发音提示。

接着是韵律处理。人们在说话的时候,声音会根据不同情况有所变化;合成音也需要规划音高、音长和音强上的的音段特征,听起来更加自然、真实。最后根据前两部分处理结果的要求输出语音,即合成语音


↑收起
5年前 回复(0)
最美的风景 1082015

最美的风景

这个算不上黑科技,自从GAN能稳定训练以后,这种由A数据生成B数据的数据生成方法都不再存在大的障碍,就是找到好的样本数据和精细调节参数进行训练的问题了。

1、合成人声究竟是靠音段拼接还是机器模拟:肯定是机器模型,说白了是数据生成。可以根据文本生成语音,也可以根据语音生成语音,本质上,跟用一张图像生成另外一张图像(如生成表情,卡通生成真实图像,真实图像生成卡通等等)没有重大区别。

2、像老百姓这样没有大量音源数据的人可以完成这项技术吗:GAN训练需要大量数据,没有数据找公开数据集,没有数据集就从网上爬,爬不到就没办法了。

3、如何实现:定义一个ground true,让生成的数据跟这个比较,使其最接近。反正所有的机器学习原理都是这个。

4、合成人声这项技术可以应用在哪个技术领域:简单的,可以让自动阅读不再那么生硬刻板,复杂的可以开下脑洞,比如战争时模仿某个公众人物的声音,等等。

5、它是否会像克隆技术一样给人类带来某些方面的危机:无论什么技术都会带来一定危机,比如生产钢铁可以用于战争,生产菜刀可以杀人,但这些都可以在法律框架下控制。

↑收起
5年前 回复(0)
最美的风景 1082015

最美的风景

关于人工语音智能这方面的黑科技不太懂,坐等各位大神回答~
我觉得声音可以说是人类的一笔巨大精神财富,同影像、文字一样,声音所蕴含的内容同样可贵。所以我认为复原逝者声音这个话题其实应该受到更多的社会关注,首先它在心理医学领域绝对是有一席之地的。很多因痛失亲人和爱人造成心理创伤的患者,可依靠合成人声技术找回逝者声音,这对他们来说无疑是最大的安慰。很多先天语言障碍的聋哑人,也可依靠此技术合成自己的声音。

这项技术应用的领域比我们想象的更多 ,例如应用于电视、电影、游戏等各领域的配音环节,大大地减少人力支出。还可应用于电子书阅读以及充当个人助理等各种私人服务,也就是说,王凯、靳东、胡歌这样的低音炮每天为你读诗将不是梦。

但它给人类所带来的后果也是十分可怕,许多国家的司法系统就尤其看重这一点。不法分子可利用这项技术轻易操纵录音,从而破坏了录音作为证据的可信度,这对法律无疑也是一张挑战!
其次请试想一下,假如你的声音将不具有个性化,也就是说你的声音不再只是你自己的,它会被各种人盗取合成,危险程度可想而知,如果再出现在各种奇怪的地方…比如…你们懂得!
In a word,合成人声这项技术将如何应用于人类生活以及如何把握它的尺度还是个未知数。


↑收起
5年前 回复(0)
已无更多回答~
1人关注了该问题
相关讨论
欢迎登录知投 立即注册
下次自动登录 忘记密码
登录
使用社交账号登录
知投送你