您的位置:好站长外链 > 站长新闻 > IT >

苹果联合学界生成多平面图像方法,让2D生成对抗网络实现3D感知

文章来源:好站长外链

作者:互联网

人气:11

2022-08-10

  在生成高质量图像方面,生成对抗网络(GAN,Generative Adversarial Nets)在近几年取得了令人印象深刻的进展。
 
  这些进步大多集中在生成器的输出空间和给定的数据集设置相同方面,这些输出通常是图像,有时也是 3D 卷形式。
 
  而最新的研究主要体现在生成与现有的训练数据不同的新输出上。这包括为一类对象生成 3D 几何图形和相应的纹理的方法,给定的数据集只包含广泛可用的单视图图像。没有使用多视图图像或 3D 几何图形来监督 3D 感知 GAN 的训练。
 
  为了从这种有限的监督形式中学习 3D 几何图形,之前的研究通常会结合三维感知归纳偏差,如三维体素网格或使用渲染引擎的隐式表示。
 
  然而,提高这些方法的结果质量仍然具有挑战性:3D 感知的归纳偏差通常是内存密集型的显式或隐式 3D 卷,并且渲染通常需要计算。此外,从 2D GAN 中获得的经验教训往往不能直接转移,因为生成器的输出甚至其整个结构都必须进行调整。
 
  这就提出了一个问题:让现有的 2D 生成对抗网络 3D 感知,需要真正做些什么?
 
  为了回答这个问题,本次苹果联合学界希望以最少方式修改现有的 2D GAN,并建立一个有效的推理和训练程序。
 
  近日,相关论文以《生成多平面图像:制作一个 2D GAN 3D 感知》(Generative Multiplane Images:Making a 2D GAN 3D-Aware)为题提交在 arXiv 上。
 
  ▲图 | 3D 感知生成多平面图像的概述(来源:arXiv)
 
  首先对 GAN 的概念做一简单介绍。据维基百科了解,“GAN 是一类机器学习框架,由生成器和鉴别器两个神经网络在游戏中相互竞争,鉴别器对生成器产生的欺骗样本进行检测,使用零和博弈的形式,其中一个代理的收益是另一个代理的损失。这一对抗性概念最初被认为是无监督学习生成模型的一种形式,但它也被证实对半监督学习、完全监督学习和强化学习有用。”
 
  本次研究人员选择了一种被广泛使用的高清图像合成方法 StyleGANv2。对此,研究者在论文中表示:“StyleGANv2 有一个额外的好处,即许多训练检查点都是公开可用的。”
 
  StyleGANv2 发布于 2020 年,是 StyleGAN(2018 年 12 月推出)的升级版。StyleGAN 主要体现人脸属性,像脸型的表情、朝向、肤色、光照等多方面容貌姿态信息。
 
  通过输入不同参数,可以使 StyleGAN 生成精细程度不同的各种人脸“Style”。另外,该模型也可以生成动物、汽车等图像。值得一提的是,由于 StyleGAN 可以对生成的图像进行细致调整,从而更容易生成足够真实的假图像。该技术的一些潜在有害用途一直存在争议。
 
  回到一开始提出的问题,让现有的 2D 生成对抗网络 3D 感知需要什么?
 
  本次研究团队在论文中表示:“只有两个修改是绝对必要的:1.一个多平面图像(MPI,MultiPlane Image)样式生成器分支,它生成一组基于其深度的 Alpha 映射。2.一个姿势调节的鉴别器。更具体地说,我们为 StyleGANv2 开发了一个新的生成器分支,它会产生一组类似于 MPI 的正面平行的 Alpha 映射。这是第一个证明 MPI 可以作为无条件的 3D 感知生成模型的场景表示的研究。”
 
  据了解,区别于生成器和鉴别器一同调整的情况,新分支是从零进行训练,并且,结合 Alpha 映射与 MPI 渲染中的单一图像输出,还可得到多种视图的 3D 感知生成。
 
  虽然 Alpha 映射遮挡的解决还存在一定限制,但其地图数量和渲染都比较有优势,甚至在训练和推理方便也有差别,可缓解记忆问题。
 
  “我们将这种生成输出的方法称作‘生成多平面图像’(GMPI,Generative MultiPlane Image)。”研究人员在论文中表示。他们还提到,虽然这两种调整在事后看起来很直观,但令人惊讶的是,一个具有基于其深度的平面和使用相机姿态信息的 Alpha 地图,对 3D 感知的归纳偏差是足够的。
 
  另外,即便修改 Alpha 映射的另一个归纳偏差有效,但对获得 3D 感知并不是必要的。
 
  总的来说,本次研究团队的贡献主要体现在两方面:1.使用标准单视图 2D 图像数据集,训练类似 MPI 的 3D 感知生成模型;2.在深度上的 Alpha 平面或一个可学习的令牌和相机姿态上的鉴别器,足以使 2D GAN 转向 3D 感知。
 
  此外,团队还研究了在三个高分辨率数据集(FFHQ、AFHQv2 和 MetFaces)上编码 3D 感知归纳偏差的方法。同时也对其他信息提供了改进,但这些对 3D 感知并不是严格必要的。
 
  最后,研究人员希望 GMPI 的简单性,能对解决遮挡推理等工作的限制提供帮助。
相关文章

在线客服

外链咨询

扫码加我微信

微信:841909564

返回顶部