ChatPaper.aiChatPaper

O Que Você Vê é o Que Você GAN: Renderizando Cada Pixel para Geometria de Alta Fidelidade em GANs 3D

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

January 4, 2024
Autores: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI

Resumo

As Redes Generativas Adversariais (GANs) 3D-aware têm demonstrado progresso notável na geração de imagens consistentes em múltiplas vistas e geometrias 3D de cenas a partir de coleções de imagens 2D por meio de renderização neural volumétrica. No entanto, os custos significativos de memória e computação associados à amostragem densa na renderização volumétrica forçaram as GANs 3D a adotar treinamento baseado em patches ou empregar renderização de baixa resolução com super-resolução 2D pós-processada, o que sacrifica a consistência multiview e a qualidade da geometria resolvida. Consequentemente, as GANs 3D ainda não conseguiram resolver completamente a rica geometria 3D presente em imagens 2D. Neste trabalho, propomos técnicas para escalar a renderização neural volumétrica para resoluções muito mais altas, equivalentes às das imagens 2D nativas, resolvendo assim geometrias 3D detalhadas com um nível de detalhe sem precedentes. Nossa abordagem emprega amostradores baseados em aprendizado para acelerar a renderização neural no treinamento de GANs 3D, utilizando até 5 vezes menos amostras de profundidade. Isso nos permite renderizar explicitamente "cada pixel" da imagem em resolução total durante o treinamento e inferência, sem a necessidade de super-resolução 2D pós-processada. Juntamente com nossa estratégia para aprender geometria de superfície de alta qualidade, nosso método sintetiza geometria 3D de alta resolução e imagens estritamente consistentes em diferentes vistas, mantendo a qualidade da imagem em paridade com métodos baseados em super-resolução pós-processada. Demonstramos qualidade geométrica 3D de ponta nos conjuntos FFHQ e AFHQ, estabelecendo um novo padrão para o aprendizado não supervisionado de formas 3D em GANs 3D.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable progress in learning to generate multi-view-consistent images and 3D geometries of scenes from collections of 2D images via neural volume rendering. Yet, the significant memory and computational costs of dense sampling in volume rendering have forced 3D GANs to adopt patch-based training or employ low-resolution rendering with post-processing 2D super resolution, which sacrifices multiview consistency and the quality of resolved geometry. Consequently, 3D GANs have not yet been able to fully resolve the rich 3D geometry present in 2D images. In this work, we propose techniques to scale neural volume rendering to the much higher resolution of native 2D images, thereby resolving fine-grained 3D geometry with unprecedented detail. Our approach employs learning-based samplers for accelerating neural rendering for 3D GAN training using up to 5 times fewer depth samples. This enables us to explicitly "render every pixel" of the full-resolution image during training and inference without post-processing superresolution in 2D. Together with our strategy to learn high-quality surface geometry, our method synthesizes high-resolution 3D geometry and strictly view-consistent images while maintaining image quality on par with baselines relying on post-processing super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D GANs.
PDF141February 8, 2026