Ciò che Vedi è Ciò che GAN: Rendering di Ogni Pixel per una Geometria ad Alta Fedeltà nelle GAN 3D
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
January 4, 2024
Autori: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI
Abstract
Le Generative Adversarial Networks (GAN) 3D-aware hanno dimostrato progressi significativi nell'apprendimento della generazione di immagini multi-vista coerenti e geometrie 3D di scene a partire da collezioni di immagini 2D attraverso il rendering neurale volumetrico. Tuttavia, gli elevati costi di memoria e computazione legati al campionamento denso nel rendering volumetrico hanno costretto le GAN 3D ad adottare un addestramento basato su patch o a utilizzare rendering a bassa risoluzione con super-risoluzione 2D post-elaborazione, sacrificando la coerenza multi-vista e la qualità della geometria risolta. Di conseguenza, le GAN 3D non sono ancora state in grado di risolvere completamente la ricca geometria 3D presente nelle immagini 2D. In questo lavoro, proponiamo tecniche per scalare il rendering neurale volumetrico alla risoluzione molto più elevata delle immagini 2D native, risolvendo così geometrie 3D dettagliate con una precisione senza precedenti. Il nostro approccio utilizza campionatori basati sull'apprendimento per accelerare il rendering neurale nell'addestramento delle GAN 3D, impiegando fino a 5 volte meno campioni di profondità. Ciò ci consente di "rendere ogni pixel" dell'immagine a piena risoluzione durante l'addestramento e l'inferenza senza ricorrere alla super-risoluzione 2D post-elaborazione. Insieme alla nostra strategia per apprendere geometrie superficiali di alta qualità, il nostro metodo sintetizza geometrie 3D ad alta risoluzione e immagini strettamente coerenti rispetto alla vista, mantenendo una qualità dell'immagine pari a quella delle baseline che si affidano alla super-risoluzione post-elaborazione. Dimostriamo una qualità geometrica 3D all'avanguardia su FFHQ e AFHQ, stabilendo un nuovo standard per l'apprendimento non supervisionato di forme 3D nelle GAN 3D.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable
progress in learning to generate multi-view-consistent images and 3D geometries
of scenes from collections of 2D images via neural volume rendering. Yet, the
significant memory and computational costs of dense sampling in volume
rendering have forced 3D GANs to adopt patch-based training or employ
low-resolution rendering with post-processing 2D super resolution, which
sacrifices multiview consistency and the quality of resolved geometry.
Consequently, 3D GANs have not yet been able to fully resolve the rich 3D
geometry present in 2D images. In this work, we propose techniques to scale
neural volume rendering to the much higher resolution of native 2D images,
thereby resolving fine-grained 3D geometry with unprecedented detail. Our
approach employs learning-based samplers for accelerating neural rendering for
3D GAN training using up to 5 times fewer depth samples. This enables us to
explicitly "render every pixel" of the full-resolution image during training
and inference without post-processing superresolution in 2D. Together with our
strategy to learn high-quality surface geometry, our method synthesizes
high-resolution 3D geometry and strictly view-consistent images while
maintaining image quality on par with baselines relying on post-processing
super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ
and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D
GANs.