Was du siehst, ist was du GANst: Jedes Pixel rendern für hochauflösende Geometrie in 3D-GANs
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
January 4, 2024
Autoren: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI
Zusammenfassung
3D-bewusste Generative Adversarial Networks (GANs) haben bemerkenswerte Fortschritte beim Lernen der Generierung von multiview-konsistenten Bildern und 3D-Geometrien von Szenen aus Sammlungen von 2D-Bildern mittels neuronaler Volumenrendering gezeigt. Dennoch haben die erheblichen Speicher- und Rechenkosten der dichten Abtastung beim Volumenrendering 3D-GANs dazu gezwungen, patch-basiertes Training zu verwenden oder Low-Resolution-Rendering mit nachgelagerter 2D-Superauflösung einzusetzen, was die Multiview-Konsistenz und die Qualität der aufgelösten Geometrie beeinträchtigt. Folglich konnten 3D-GANs die reichhaltige 3D-Geometrie, die in 2D-Bildern vorhanden ist, noch nicht vollständig auflösen. In dieser Arbeit schlagen wir Techniken vor, um das neuronale Volumenrendering auf die viel höhere Auflösung nativer 2D-Bilder zu skalieren und dadurch fein abgestufte 3D-Geometrie mit beispiellosem Detailreichtum aufzulösen. Unser Ansatz verwendet lernbasierte Sampler zur Beschleunigung des neuronalen Renderings für das 3D-GAN-Training unter Verwendung von bis zu 5-mal weniger Tiefenproben. Dies ermöglicht es uns, explizit „jeden Pixel“ des hochauflösenden Bildes während des Trainings und der Inferenz zu rendern, ohne eine nachgelagerte 2D-Superauflösung. Zusammen mit unserer Strategie zum Erlernen hochwertiger Oberflächengeometrie synthetisiert unsere Methode hochauflösende 3D-Geometrie und streng sichtkonsistente Bilder, während die Bildqualität auf dem Niveau von Baselines bleibt, die auf nachgelagerter Superauflösung basieren. Wir demonstrieren state-of-the-art 3D-geometrische Qualität auf FFHQ und AFHQ und setzen damit einen neuen Standard für das unüberwachte Lernen von 3D-Formen in 3D-GANs.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable
progress in learning to generate multi-view-consistent images and 3D geometries
of scenes from collections of 2D images via neural volume rendering. Yet, the
significant memory and computational costs of dense sampling in volume
rendering have forced 3D GANs to adopt patch-based training or employ
low-resolution rendering with post-processing 2D super resolution, which
sacrifices multiview consistency and the quality of resolved geometry.
Consequently, 3D GANs have not yet been able to fully resolve the rich 3D
geometry present in 2D images. In this work, we propose techniques to scale
neural volume rendering to the much higher resolution of native 2D images,
thereby resolving fine-grained 3D geometry with unprecedented detail. Our
approach employs learning-based samplers for accelerating neural rendering for
3D GAN training using up to 5 times fewer depth samples. This enables us to
explicitly "render every pixel" of the full-resolution image during training
and inference without post-processing superresolution in 2D. Together with our
strategy to learn high-quality surface geometry, our method synthesizes
high-resolution 3D geometry and strictly view-consistent images while
maintaining image quality on par with baselines relying on post-processing
super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ
and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D
GANs.