Ce que vous voyez est ce que vous GAN : Rendu de chaque pixel pour une géométrie haute fidélité dans les GAN 3D
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
January 4, 2024
Auteurs: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI
Résumé
Les réseaux antagonistes génératifs (GANs) 3D ont montré des progrès remarquables dans l'apprentissage de la génération d'images cohérentes en multi-vues et de géométries 3D de scènes à partir de collections d'images 2D via le rendu volumique neuronal. Cependant, les coûts importants en mémoire et en calcul de l'échantillonnage dense dans le rendu volumique ont contraint les GANs 3D à adopter un entraînement par patchs ou à utiliser un rendu à basse résolution avec un post-traitement de super-résolution 2D, ce qui sacrifie la cohérence multi-vues et la qualité de la géométrie résolue. Par conséquent, les GANs 3D n'ont pas encore été en mesure de résoudre pleinement la riche géométrie 3D présente dans les images 2D. Dans ce travail, nous proposons des techniques pour étendre le rendu volumique neuronal à la résolution beaucoup plus élevée des images 2D natives, permettant ainsi de résoudre une géométrie 3D fine avec un niveau de détail sans précédent. Notre approche utilise des échantillonneurs basés sur l'apprentissage pour accélérer le rendu neuronal pour l'entraînement des GANs 3D en utilisant jusqu'à 5 fois moins d'échantillons de profondeur. Cela nous permet de "rendre chaque pixel" de l'image en pleine résolution pendant l'entraînement et l'inférence sans post-traitement de super-résolution en 2D. Associée à notre stratégie pour apprendre une géométrie de surface de haute qualité, notre méthode synthétise une géométrie 3D haute résolution et des images strictement cohérentes en vue tout en maintenant une qualité d'image comparable aux méthodes de référence reposant sur un post-traitement de super-résolution. Nous démontrons une qualité géométrique 3D de pointe sur FFHQ et AFHQ, établissant une nouvelle norme pour l'apprentissage non supervisé de formes 3D dans les GANs 3D.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable
progress in learning to generate multi-view-consistent images and 3D geometries
of scenes from collections of 2D images via neural volume rendering. Yet, the
significant memory and computational costs of dense sampling in volume
rendering have forced 3D GANs to adopt patch-based training or employ
low-resolution rendering with post-processing 2D super resolution, which
sacrifices multiview consistency and the quality of resolved geometry.
Consequently, 3D GANs have not yet been able to fully resolve the rich 3D
geometry present in 2D images. In this work, we propose techniques to scale
neural volume rendering to the much higher resolution of native 2D images,
thereby resolving fine-grained 3D geometry with unprecedented detail. Our
approach employs learning-based samplers for accelerating neural rendering for
3D GAN training using up to 5 times fewer depth samples. This enables us to
explicitly "render every pixel" of the full-resolution image during training
and inference without post-processing superresolution in 2D. Together with our
strategy to learn high-quality surface geometry, our method synthesizes
high-resolution 3D geometry and strictly view-consistent images while
maintaining image quality on par with baselines relying on post-processing
super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ
and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D
GANs.