学界 | 论文碰车英伟达,一作「哭晕在厕所」,英伟达:要不要来名习?

发布时间:2020-03-06 02:23:43

裕美新闻首页

裕美新闻首页 提供:新闻,八卦,体育,财经,社会,健康,游戏,教育,科技,娱乐

呆板之心报道


捷飞新闻首页

捷飞新闻首页 提供:新闻,八卦,体育,财经,社会,健康,游戏,教育,科技,娱乐

介入:刘晓坤



英伟达率先公布了一致的处事,让千里除外的几位接洽者一脸懵逼,所以确定颁布代码以示不抄袭。


来自韩国首尔大学的接洽者近期颁布了一篇运用基于流的天生模型举行名时的语音合成的接洽 FloWaveNet。但怪僻的是,他们的论文中并不语音合成中典型的人类评价 MOS(平衡意睹分数)目标,以至一个试验图标都不。缘故很风趣:他们创造英伟达在前几天颁布的论文 WaveGlow 果然和 FloWaveNet 在重要念想上几乎名脚相共,都建议了基于流的语音合成本领。



为此,论文二作追快将代码、天生样品以及 arXiv 手稿放了出来,并在 Reddit 上公布,而后苦苦推敲何如安慰在试验室角降哭哭的一作。


Reddit 网友纷纷伸出扶助安慰一作:


你和范围权威的办法碰遇到所有了,这是功德不是吗?


WaveGlow 仍旧不过一篇 arXiv 论文,所以不必担心,特意提一停,Nice Work!


尔的伙伴,深有共感。尔几周前和谷歌碰车,几个月前还和 DeepMind 碰车。尔是搞人为智能的,又不是开碰碰车的。尔在提接对于音频天生的论文之前,谷歌颁布了一致的处事 Nsynth。尔运用了大略的基于自编码器的天生模型,而谷歌的 Nsynth 基础念想一律,但范围大得多,而且能贯串其余许多先入的本领。动作部分很难和具有更多工程师、接洽员和资源的权威比赛。这是一个比赛激烈的行业,很难干出名脚特殊的接洽。然而没接洽,干好你本人的接洽,并基于此连接地矫正,也是尔们需要的接洽作风。


英伟达也开源了 WaveGlow 的代码,所以你们不妨更精致地比较你们接洽之间的不共。


WaveGlow:https://github.com/NVIDIA/waveglow


FloWaveNet:https://github.com/ksw0306/FloWaveNet


FloWaveNet 天生样品地方:https://drive.google.com/drive/folders/1RPo8e35lhqwOrMrBf1cVXqnF9hzxsunU


这二篇论文究竟有多一致?尔们所有体验一停。


论文:FloWaveNet : A Generative Flow for Raw Audio


论文地方:https://arxiv.org/pdf/1811.02155.pdf


纲要:大普遍文本到语音的架构运用了 WaveNet 语音编码器来合成高保实的音频波形,但因为自归归采样太缓,其在名际运用中生存控制性。人们近期建议的 Parallel WaveNet 过程安置逆向自归归流(IAF)到并行采样中名现了名时的音频合成。然而,Parallel WaveNet 需要二个阶段的演练流水线,个中安置一个演练杰出的教受搜集,而且即使仅运用 probability distillation 演练简单引导情势崩溃。FloWaveNet 仅需要单个最大似然丢失函数,而不需要任何其余扶助项,而且因为基于流的变换的运用,其内涵地是并行的。该模型不妨高效地名时采样原始音频,其语音明显度和 WaveNet 以及 ClariNet 十分。



图 1:FloWaveNet 模型图示。左图:FloWaveNet 的所有前向传播过程,由 N 个左右文模块产生。中央:流操纵的抽象图示。右图:affine coupling 操纵细节。


论文:WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS 


论文地方:https://arxiv.org/pdf/1811.00002.pdf


纲要:在本文中尔们建议了 WaveGlow,这是一个基于流的不妨从梅尔谱图天生高品质语音的搜集。WaveGlow 贯串了 Glow 和 WaveNet 的念想,以供给追快、高效和高品质的音频合成,不需要运用自归归。WaveGlow 仅运用单个搜集名现,用单个丢失函数演练:最大化演练数据的似然度,这使得演练过程大略而宁静。平衡意睹分数评价表白该本领能天生和最佳的 WaveNet 名现品质十分的截止。



图 1: WaveGlow 模型图示。



表 1:WaveGlow 平衡意睹分数评价截止。


尔们大概能瞅到:FloWaveNet 和 WaveNet 都沿用了基于流的天生模型念想;唾弃了自归归;唾弃二阶段演练过程;不需要特殊扶助丢失项;只需要似然度动作丢失函数;只需要一个搜集;能天生和 WaveNet 品质十分的语音...... 如许反面方才的碰车,难怪一作疼的抽泣。


固然,过程反面临基于流的天生模型的证亮,尔们能创造,他们的接洽的大限制沉合点就是对这种模型的沿用,其余的都是连带效力。这究竟是什么样的天生模型,不妨一己之力改变乾坤,还让相隔千里的 AI 接洽者垂涎景仰,不觉碰车?


其名,最欣喜/诧异的扶助仍旧来自他们的冤大头——英伟达。WaveGlow 的作家之一 Bryan Catanzaro 在 Reddit 上赞好了他们的处事,还恭请他们去名习,在语音天生接洽上协调......



学术界也是充溢了戏剧性~


为什么要采用基于流的天生模型


基于流的天生模型是继 GAN 和 VAE 之后的第三种天生模型,但这不过许多人的始步回忆。其名这种模型在 2014 年便被建议,比 GAN 还早,但仅在近期因为 OpenAI 建议了 Glow 模型才被人提防到。基于流的天生模型具备可逆和内涵并行性的便宜。


名际上,天生模型不妨分为四个类型:自归归、GAN、VAE、flow-based(基于流)。以图像天生为例,自归归模型需要逐像素地天生整弛图像,屡屡鼎盛成的像素会动作天生停一个像素的输出。这种模型计划成本高,并行性很差,在大范围天生工作中本能有限。上述的 WaveNet 就是一种自归归模型,最大的短点就是缓。其余典型的自归归模型还有 PixelRNN 和 PixelCNN。其余,自归归模型也是可逆的。相对于自归归模型,基于流的天生模型的上风是其并行性。


相对于 VAE 和 GAN,基于流的天生模型的上风是:不妨用隐变量精确地建模如名数据的传播,即精确估计对数似然,成绩于其可逆性。而 VAE 纵然是隐变量模型,但只能估计如名传播的好像值,而隐变量传播取如名传播之间的 gap 是不可襟怀的,这也是 VAE 的天生图像朦胧的缘故。GAN 是一种进修范式,并不特定于某种模型架构,而且因为其生存二个模型彼此博弈的特性,表面的好像极限也是无法确定的。基于流的天生模型却不妨在表面上保护不妨名脚逼近如名的数据传播。



有这么多的便宜,以一己之力轻快恢复 WaveNet 的短点也不是什么难事了,至于更深刻的细节,还请参阅原论文。


基于流的天生模型不妨大概领会为:它希看将数据表白成大略的隐变量传播,并不妨从该传播中名脚恢复如名数据的传播。也就是道,它要进修的是一个可逆函数。运用雅可比矩阵的这天本质:一个函数的雅可比矩阵的逆矩阵,是该函数的反函数的雅可比矩阵,NICE 和 RealNVP 建议了过程程序的可逆函数变换,将大略传播渐渐恢复搀杂的如名数据传播的归一化流过程,如停图所示。后来在 Glow 中建议用 1x1 可逆卷积替代 NICE 和 RealNVP 中的可逆变换。




因为不妨举行精确的密度估计,基于流的天生模型在许多停游工作中完备天然上风,比方数据补齐、数据插值、新数据天生等。


在 Glow 中,这种模型铺示了其在图像天生和图像属性操控上的后劲:



Glow 名现的人脸图像属性操纵。演练过程中不给模型供给属性标签,但它进修了一个潜伏空间,个中的特定目标对应于胡须密度、年纪、头发脸色等属性的变化。


这类模型是不是能胜过 GAN 不好道,但相对于 VAE 仍旧有很亮显的上风,在将来的天生模型接洽范围中也是特殊值得憧憬和关心的目标。


参考本质


https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html



瑾环新闻网

瑾环新闻网提供:新闻,八卦,体育,财经,社会,健康,游戏,教育,科技,娱乐。

版权声明

本文仅代表作者观点,
不代表本站攀枝花新闻首网的立场。
本文系作者授权发表,未经许可,不得转载。