
生成式反抗网络(Generative adversarial networks, GAN)是当前人工智能学界最为重要的研究热点之一。其突出的生成能力不仅可用于生成各种图像和自然语言数据,还启发和推动了各种半监视学习和无监视学习任务的生长。生成反抗网络是一种包罗无监视学习的模型,通过(无监视地)向有标签样本学习其数据漫衍来生成类似的样本,这种历程更类似于人类学习外界知识时候接纳的无监视方式。生成反抗网络可以改善一般网络模型过于依赖数据数量及标签的缺点,是近几年内最有可能提升人工智能系统性能的网络结构之一。
GAN 最早由 Ian Goodfellow 于 2014 年提出,以其优越的性能,在不到两年时间里,迅速成为人工智能一大研究热点。凭据相关算法,AMiner 近期最新推出了“生成式反抗网络”专题页,在该页面你可以研读近 10 年来 GAN 领域的百余篇经典论文,还可快速举行一键综述,相识 GAN 领域近年来的生长态势。根据必读论文的被引用量,我们挑选了 TOP10 作简要分析解读,供大参考学习。
1.Generative Adversarial Nets(NIPS 2014)作者:Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C. Courville,Yoshua Bengio单元:蒙特利尔大学引用量:14468本篇论文是 Ian Goodfellow 的在 2014 年的经典之作,也可谓是 GAN 的开山之作。作者提出了一个通过反抗历程预计生成模型的新框架,在新框架中同时训练两个模型:一个用来捕捉数据漫衍的生成模型 G,一个用来预计样原来自训练数据而不是 G 的概率的判别模型 D,G 的训练历程是最大化 D 发生错误的概率。
这个框架相当于一个极小化极大的双方博弈。在任意函数 G 和 D 的空间中存在唯一的解,其中G恢复训练数据漫衍,而且 D 到处都即是 1212。在 G 和 D 由多层感知器界说的情况下,整个系统可以用反向流传举行训练。
在训练或生成样本期间不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样品举行定性和定量评估来展示了该框架的潜力。2.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks(ICLR2015)作者:Alec Radford,Luke Metz,Soumith Chintala单元:Indico Research Boston ,Facebook引用量:5906近年来,使用卷积神经网络的监视学习被大量应用于盘算机视觉应用中。CNN 在监视学习领域的庞大乐成和无监视学习领域的无人问津形成了鲜明的对比,本文旨在链接上这两者之间的缺口。
作者先容了 CNN 的一个类,称为深度卷积生成反抗网络(DCGANs),它有着明确的结构约束,而且讲明他们对非监视学习有着强烈的可信度。通过在差别的图像数据集上的训练,展示出了令人信服的证据,他们的深度卷积反抗对从工具部门加入景,在生产器和判别器上都能学到层级的表现。
此外,作者在一些新的任务上使用学习到的特征,讲明了它们在一般化图像的表现上具有通用性。3.Image-to-Image Translation with Conditional Adversarial Networks(CVPR 2017)作者:Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,Alexei A. Efros单元:UC Berkeley引用量:3912本文研究了将条件生成反抗网络作为图像转换问题的通用解决方案。该网络不仅可以学习输入图像到输出图像的映射关系,还能够学习用于训练映射关系的 loss 函数。
这使得作者可以使用同一种方法来解决那些传统上需要种种形式 loss 函数的问题。作者证明晰该方法可以有效实现下列任务:从标签图合成相片,从线稿图重构工具,给图片上色等。所以他们不再需要人工设计映射函数,而且这项事情讲明,纵然不手动设计 loss 函数,也能到达合理的效果。
本文中,作者研究了有条件的 GANs。和 GANs 从数据中学习一个生成模型一样,条件 GANs 学习一个条件生成模型。这使cGANs适用于图像转换问题,在输入图片上设置条件,获得相应的输出图像。本文的主要孝敬是阐释了 cGANs 在许多问题上都能发生合理的效果,并提出了一个简朴有效的框架,分析了几种重要结构选择的效果。
4.Representation learning: a review and new perspectives(IEEE Trans. Pattern Anal. Mach. Intell2013)作者:Yoshua Bengio,Aaron Courville,Pascal Vincent单元:蒙特利尔大学引用量:3648本文是 Bengio 大神的又一篇综述文章。机械学习算法的乐成普遍有赖于数据的表现方法,作者作此为假设,是因为数据在差别的配景下会出现出差别种解释,而差别的表现方规则可以或多或少地掩盖掉这种可变因素。只管特定领域的特定知识可以用于表现方法的设计,可是,一般性的先验知识同样可以被拿来使用,且对人工智能的追寻,正激励着人们设计出可以将这些先验知识付诸实现的,更强大的——表现方法学习算法。
本文回首了机械学习中无监视特征学习以及交织训练的最新事情,内容包罗概率模型、自动编码器、流形学习,以及深度学习架构的最新希望。这将引发一些长年未解的问题的生长,这些问题涉及:好的表现方法的学习、表现方法的盘算(即推理)需要到达什么样的目的算为合适,表现方法学习、密度预计和流形学习三者之间具有什么样的几何关系。5.Wasserstein Generative Adversarial Networks (ICML 2017)作者:Martín Arjovsky,Soumith Chintala,Léon Bottou单元:Courant Institute of Mathematical Sciences,Facebook引用量:3611本文可以说是 GAN 生长历史上的一个里程碑文献,它解决了以往 GAN 训练难题、效果不稳定、生成样本缺乏多样性等问题。
本文孝敬在于提供一个完整的理论分析,关于 Earth Mover(EM)距离与其他盛行的概率距离和散度在漫衍学习的历程中行为上的差异;界说了一种 GAN 形式,叫做 Wassertein-GAN,其能最小化一个合理的有效的 EM 距离的近似,并理论上分析对应的最优问题的解决方案;实验分析 WGAN 能够解决 GAN 训练的主要问题。详细的,训练 WGAN 不续约维护一个小心的关于生成器和判别器之间的平衡,也不需要网络结构的经心设计。GAN 中常见的 mode dropping 现象也急剧下降。
WGAN 最具竞争力的是可以通过将判别器训练到最优来一连的评估 EM 距离。画出这些曲线不止对换试和超参数搜索有用,而且与视察到的样本质量相关。6.Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(ICCV 2017)作者:Jun-Yan Zhu,Taesung Park,Phillip Isola,Alexei A. Efros单元:UC Berkeley引用量:3451图像到图像的转换是一个经典的视觉和图形问题,目的是在对齐的数据集中学习输入图像和输出图像之间的映射关系。
然而,许多任务,对齐训练数据很难获取。作者提出一种差池齐数据集训(源数据域 X 到目的域 Y)的学习方法。
目的是学习映射 G: X -> Y 认为来自 G(x) 的漫衍图与使用反抗性损失的漫衍图无法区分。因为这个映射是高度受限,所以作者使用一个逆映射:Y -> X, 并引入一个循环一致性损失强制 F(G(X))~X(反之亦然)。
在不存在配对训练数据的情况下,给出了定性的效果,包罗收集气势派头迁移,物体变形,季节转移,光增强等。通过对几种已有方法的定量比力,证明晰作者的方法的优越性。
7.Improved Techniques for Training GANs (NIPS 2016)作者:Tim Salimans,Ian J. Goodfellow,Wojciech Zaremba,Vicki Cheung,Alec Radford,Xi Chen作者:Openai引用量:2699生成性反抗性网络是一类很有前途的生成模型,迄今为止一直受到不稳定训练和缺乏适当评估指标的阻碍。本文的事情为这两个问题提供了部门解决方案。
作者提出了一系列新的结构特征和训练历程,将其应用于生成反抗网络(GAN)框架。作者专注于 GAN 的两个应用:半监视学习,以及人类视觉上高仿真的图像生成。
与大多数关于生成模型的事情差别,他们的主要目的不是为了训练一个匹配测试数据概率更高的模型,也不要求模型能够在不使用任何标签的情况下学好。新的技术框架在 MNIST、CIFAR-10 和 SVHN 的半监视分类中获得了优良的效果。通过视觉图灵测试证实,生成的图像具有高仿真效果:通过 MNIST 样本生成的图像,人类已经难以区分,通过 CIFAR-10 样本生成的图像,效果达效果到达了 21.3% 的人为错误率。作者还以前所未有的分辨率展示了 ImageNet 示例,并讲明文中的方法使模型能够学习 ImageNet 类的可识别特征。
8.Improved Training of Wasserstein GANs (NIPS 2017)作者:Ishaan Gulrajani,Faruk Ahmed,Martín Arjovsky,Vincent Dumoulin,Aaron C. Courville单元:Montreal Institute for Learning Algorithms,Courant Institute of Mathematical Sciences引用量:2218生成反抗网络(GAN)将生成问题看成两个反抗网络的博弈:生成网络从给定噪声中发生合成数据,判别网络分辨生成器的的输出和真实数据。GAN 可以生成视觉上吸引人的图片,可是网络通常很难训练。前段时间,Arjovsky 等研究者对 GAN 值函数的收敛性举行了深入的分析,并提出了 Wasserstein GAN(WGAN),使用 Wasserstein 距离发生一个比 Jensen-Shannon 发散值函数有更好的理论上的性质的值函数。
可是仍然没能完全解决 GAN 训练稳定性的问题。作者发现失败的案例通常是由在 WGAN 中使用权重剪枝来对 critic 实施 Lipschitz 约束导致的。在本论文中,研究者们提出了一种替代权重剪枝实施 Lipschitz 约束的方法:处罚 critic 对输入的梯度。
该方法收敛速度更快,并能够生成比权重剪枝的 WGAN 更高质量的样本。9.Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (CVPR 2017)作者:Christian Ledig,Lucas Theis,Ferenc Huszar,Jose Caballero,Andrew P. Aitken,Alykhan Tejani,Johannes Totz,Zehan Wang,Wenzhe Shi单元:Twitter引用量:2025本文针对传统超分辨方法中存在的效果过于平滑的问题,提出了却合最新的反抗网络的方法,获得了不错的效果,而且针对此网络结构,构建了自己的感知损失函数。针对传统超分辨中存在效果过平滑问题,在 PSNR 和 SSIM 评价指标上能获得很好的效果,但图像细节显示依旧较差,使用反抗网络结构的方法,获得了视觉特性上较好效果。本文主要孝敬如下:建设了使用 PSNR 和SSIM为评价尺度的SRResNet,对图像举行放大4倍,取得了最好的测试效果。
提出了SRGAN网络,该网络结构凭据反抗网络网络结构提出了一种新的视觉损失函数(perceptual loss),使用VGG的网络特征作为内容损失函数(content loss),取代了之前的 MSE 损失函数。对生成的图像举行 MOS(mean opinion score)举行评价。10.Progressive Growing of GANs for Improved Quality, Stability, and Variation(ICLR 2018)作者:Tero Karras,Timo Aila,Samuli Laine,Jaakko Lehtinen单元:NVIDIA引用量:1509本文形貌了生成反抗网络的新训练方法,关键思想是从低分辨率图像开始,逐渐增大(grow)生成器和判别器,并在训练希望历程中添加新的处置惩罚更高分辨率细节的网络层。
这大大地稳定了训练,生成了前所未有高质量的图像。PGGAN 首次生成 1024×1024 的人脸图像,在此之前 128×128 的已经相当难题且质量无法保证。
此外,作者还提出些在训练历程中用到的 trick 等。通过使用逐渐增大的 GAN 网络(先训练 4x4,然后训练 8x8,然后... 直到 1024x1024),配合经心处置惩罚过的 CelebA-HQ 数据集,实现了迄今最真实的 GAN 效果。
本文来源:开云app官网入口-www.mx-lj.com