Lo que ves es lo que obtienes con GAN: Renderizado de cada píxel para geometría de alta fidelidad en GANs 3D
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
January 4, 2024
Autores: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI
Resumen
Las Redes Generativas Adversarias (GANs) 3D han mostrado avances notables en la generación de imágenes consistentes desde múltiples vistas y geometrías 3D de escenas a partir de colecciones de imágenes 2D mediante renderizado neural volumétrico. Sin embargo, los significativos costos de memoria y computación asociados al muestreo denso en el renderizado volumétrico han obligado a las GANs 3D a adoptar entrenamiento basado en parches o a emplear renderizado de baja resolución con superresolución 2D posterior, lo que sacrifica la consistencia multivista y la calidad de la geometría resuelta. Como consecuencia, las GANs 3D aún no han podido resolver completamente la rica geometría 3D presente en las imágenes 2D. En este trabajo, proponemos técnicas para escalar el renderizado neural volumétrico a la resolución mucho más alta de las imágenes 2D nativas, resolviendo así geometrías 3D detalladas con un nivel de detalle sin precedentes. Nuestro enfoque utiliza muestreadores basados en aprendizaje para acelerar el renderizado neural en el entrenamiento de GANs 3D, utilizando hasta 5 veces menos muestras de profundidad. Esto nos permite "renderizar cada píxel" de la imagen a resolución completa durante el entrenamiento y la inferencia sin necesidad de superresolución 2D posterior. Junto con nuestra estrategia para aprender geometría de superficie de alta calidad, nuestro método sintetiza geometría 3D de alta resolución e imágenes estrictamente consistentes en vista, manteniendo una calidad de imagen comparable con los métodos basales que dependen de superresolución posterior. Demostramos una calidad geométrica 3D de vanguardia en FFHQ y AFHQ, estableciendo un nuevo estándar para el aprendizaje no supervisado de formas 3D en GANs 3D.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable
progress in learning to generate multi-view-consistent images and 3D geometries
of scenes from collections of 2D images via neural volume rendering. Yet, the
significant memory and computational costs of dense sampling in volume
rendering have forced 3D GANs to adopt patch-based training or employ
low-resolution rendering with post-processing 2D super resolution, which
sacrifices multiview consistency and the quality of resolved geometry.
Consequently, 3D GANs have not yet been able to fully resolve the rich 3D
geometry present in 2D images. In this work, we propose techniques to scale
neural volume rendering to the much higher resolution of native 2D images,
thereby resolving fine-grained 3D geometry with unprecedented detail. Our
approach employs learning-based samplers for accelerating neural rendering for
3D GAN training using up to 5 times fewer depth samples. This enables us to
explicitly "render every pixel" of the full-resolution image during training
and inference without post-processing superresolution in 2D. Together with our
strategy to learn high-quality surface geometry, our method synthesizes
high-resolution 3D geometry and strictly view-consistent images while
maintaining image quality on par with baselines relying on post-processing
super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ
and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D
GANs.