ChatPaper.aiChatPaper

보이는 대로 생성한다: 3D GAN에서 고해상도 기하학을 위한 모든 픽셀 렌더링

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

January 4, 2024
저자: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI

초록

3D 인식 생성적 적대 신경망(GANs)은 신경 볼륨 렌더링을 통해 2D 이미지 컬렉션으로부터 다중 뷰 일관성 이미지와 장면의 3D 기하학을 생성하는 데 있어서 놀라운 진전을 보여왔습니다. 그러나 볼륨 렌더링에서의 밀집 샘플링이 요구하는 상당한 메모리와 계산 비용으로 인해, 3D GANs는 패치 기반 훈련을 채택하거나 저해상도 렌더링과 후처리 2D 초해상도를 사용함으로써 다중 뷰 일관성과 해결된 기하학의 품질을 희생해야 했습니다. 결과적으로, 3D GANs는 아직 2D 이미지에 존재하는 풍부한 3D 기하학을 완전히 해결하지 못하고 있습니다. 본 연구에서는 신경 볼륨 렌더링을 원본 2D 이미지의 훨씬 더 높은 해상도로 확장하여 전례 없는 세부 사항으로 미세한 3D 기하학을 해결하는 기술을 제안합니다. 우리의 접근 방식은 최대 5배 적은 깊이 샘플을 사용하여 3D GAN 훈련을 위한 신경 렌더링을 가속화하기 위한 학습 기반 샘플러를 사용합니다. 이를 통해 훈련 및 추론 중에 후처리 2D 초해상도 없이도 전체 해상도 이미지의 "모든 픽셀을 렌더링"할 수 있습니다. 고품질 표면 기하학을 학습하기 위한 우리의 전략과 함께, 우리의 방법은 후처리 초해상도에 의존하는 기준선과 동등한 이미지 품질을 유지하면서 고해상도 3D 기하학과 엄격한 뷰 일관성 이미지를 합성합니다. 우리는 FFHQ와 AFHQ에서 최첨단 3D 기하학적 품질을 입증하며, 3D GANs에서의 비지도 학습을 통한 3D 형태 학습에 새로운 기준을 제시합니다.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable progress in learning to generate multi-view-consistent images and 3D geometries of scenes from collections of 2D images via neural volume rendering. Yet, the significant memory and computational costs of dense sampling in volume rendering have forced 3D GANs to adopt patch-based training or employ low-resolution rendering with post-processing 2D super resolution, which sacrifices multiview consistency and the quality of resolved geometry. Consequently, 3D GANs have not yet been able to fully resolve the rich 3D geometry present in 2D images. In this work, we propose techniques to scale neural volume rendering to the much higher resolution of native 2D images, thereby resolving fine-grained 3D geometry with unprecedented detail. Our approach employs learning-based samplers for accelerating neural rendering for 3D GAN training using up to 5 times fewer depth samples. This enables us to explicitly "render every pixel" of the full-resolution image during training and inference without post-processing superresolution in 2D. Together with our strategy to learn high-quality surface geometry, our method synthesizes high-resolution 3D geometry and strictly view-consistent images while maintaining image quality on par with baselines relying on post-processing super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D GANs.
PDF141December 15, 2024