ChatPaper.aiChatPaper

Wat Je Ziet is Wat Je GAN: Het Renderen van Elke Pixel voor Hoogwaardige Geometrie in 3D GANs

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

January 4, 2024
Auteurs: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI

Samenvatting

3D-aware Generative Adversarial Networks (GANs) hebben aanzienlijke vooruitgang geboekt in het leren genereren van multi-view-consistente afbeeldingen en 3D-geometrieën van scènes uit verzamelingen van 2D-afbeeldingen via neurale volume rendering. Echter hebben de aanzienlijke geheugen- en rekenkosten van dichte bemonstering in volume rendering 3D GANs gedwongen om patch-gebaseerde training te gebruiken of te werken met lage-resolutie rendering met post-processing 2D superresolutie, wat ten koste gaat van multi-view consistentie en de kwaliteit van de opgeloste geometrie. Hierdoor zijn 3D GANs nog niet in staat geweest om de rijke 3D-geometrie in 2D-afbeeldingen volledig op te lossen. In dit werk stellen we technieken voor om neurale volume rendering op te schalen naar de veel hogere resolutie van native 2D-afbeeldingen, waardoor fijnmazige 3D-geometrie met ongekend detail kan worden opgelost. Onze aanpak maakt gebruik van op leren gebaseerde bemonsteraars om neurale rendering te versnellen voor 3D GAN-training met tot wel 5 keer minder dieptemonsters. Dit stelt ons in staat om expliciet "elke pixel" van de volledige-resolutie afbeelding te renderen tijdens training en inferentie zonder post-processing superresolutie in 2D. Samen met onze strategie om hoogwaardige oppervlaktegeometrie te leren, synthetiseert onze methode hoog-resolutie 3D-geometrie en strikt view-consistente afbeeldingen, terwijl de beeldkwaliteit op hetzelfde niveau blijft als baselines die vertrouwen op post-processing superresolutie. We demonstreren state-of-the-art 3D geometrische kwaliteit op FFHQ en AFHQ, waarmee een nieuwe standaard wordt gezet voor onbewaakt leren van 3D-vormen in 3D GANs.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable progress in learning to generate multi-view-consistent images and 3D geometries of scenes from collections of 2D images via neural volume rendering. Yet, the significant memory and computational costs of dense sampling in volume rendering have forced 3D GANs to adopt patch-based training or employ low-resolution rendering with post-processing 2D super resolution, which sacrifices multiview consistency and the quality of resolved geometry. Consequently, 3D GANs have not yet been able to fully resolve the rich 3D geometry present in 2D images. In this work, we propose techniques to scale neural volume rendering to the much higher resolution of native 2D images, thereby resolving fine-grained 3D geometry with unprecedented detail. Our approach employs learning-based samplers for accelerating neural rendering for 3D GAN training using up to 5 times fewer depth samples. This enables us to explicitly "render every pixel" of the full-resolution image during training and inference without post-processing superresolution in 2D. Together with our strategy to learn high-quality surface geometry, our method synthesizes high-resolution 3D geometry and strictly view-consistent images while maintaining image quality on par with baselines relying on post-processing super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D GANs.
PDF141February 8, 2026