ChatPaper.aiChatPaper

Was du siehst, ist was du GANst: Jedes Pixel rendern für hochauflösende Geometrie in 3D-GANs

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

January 4, 2024
Autoren: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI

Zusammenfassung

3D-bewusste Generative Adversarial Networks (GANs) haben bemerkenswerte Fortschritte beim Lernen der Generierung von multiview-konsistenten Bildern und 3D-Geometrien von Szenen aus Sammlungen von 2D-Bildern mittels neuronaler Volumenrendering gezeigt. Dennoch haben die erheblichen Speicher- und Rechenkosten der dichten Abtastung beim Volumenrendering 3D-GANs dazu gezwungen, patch-basiertes Training zu verwenden oder Low-Resolution-Rendering mit nachgelagerter 2D-Superauflösung einzusetzen, was die Multiview-Konsistenz und die Qualität der aufgelösten Geometrie beeinträchtigt. Folglich konnten 3D-GANs die reichhaltige 3D-Geometrie, die in 2D-Bildern vorhanden ist, noch nicht vollständig auflösen. In dieser Arbeit schlagen wir Techniken vor, um das neuronale Volumenrendering auf die viel höhere Auflösung nativer 2D-Bilder zu skalieren und dadurch fein abgestufte 3D-Geometrie mit beispiellosem Detailreichtum aufzulösen. Unser Ansatz verwendet lernbasierte Sampler zur Beschleunigung des neuronalen Renderings für das 3D-GAN-Training unter Verwendung von bis zu 5-mal weniger Tiefenproben. Dies ermöglicht es uns, explizit „jeden Pixel“ des hochauflösenden Bildes während des Trainings und der Inferenz zu rendern, ohne eine nachgelagerte 2D-Superauflösung. Zusammen mit unserer Strategie zum Erlernen hochwertiger Oberflächengeometrie synthetisiert unsere Methode hochauflösende 3D-Geometrie und streng sichtkonsistente Bilder, während die Bildqualität auf dem Niveau von Baselines bleibt, die auf nachgelagerter Superauflösung basieren. Wir demonstrieren state-of-the-art 3D-geometrische Qualität auf FFHQ und AFHQ und setzen damit einen neuen Standard für das unüberwachte Lernen von 3D-Formen in 3D-GANs.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable progress in learning to generate multi-view-consistent images and 3D geometries of scenes from collections of 2D images via neural volume rendering. Yet, the significant memory and computational costs of dense sampling in volume rendering have forced 3D GANs to adopt patch-based training or employ low-resolution rendering with post-processing 2D super resolution, which sacrifices multiview consistency and the quality of resolved geometry. Consequently, 3D GANs have not yet been able to fully resolve the rich 3D geometry present in 2D images. In this work, we propose techniques to scale neural volume rendering to the much higher resolution of native 2D images, thereby resolving fine-grained 3D geometry with unprecedented detail. Our approach employs learning-based samplers for accelerating neural rendering for 3D GAN training using up to 5 times fewer depth samples. This enables us to explicitly "render every pixel" of the full-resolution image during training and inference without post-processing superresolution in 2D. Together with our strategy to learn high-quality surface geometry, our method synthesizes high-resolution 3D geometry and strictly view-consistent images while maintaining image quality on par with baselines relying on post-processing super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D GANs.
PDF141December 15, 2024