То, что вы видите, — это то, что вы GAN: рендеринг каждого пикселя для высокоточной геометрии в 3D GAN.
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
January 4, 2024
Авторы: Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
cs.AI
Аннотация
3D-осознанные генеративно-состязательные сети (GAN) продемонстрировали значительный прогресс в обучении генерации многовидово-согласованных изображений и 3D-геометрий сцен на основе коллекций 2D-изображений с использованием нейронного объемного рендеринга. Однако значительные затраты памяти и вычислительных ресурсов, связанные с плотным сэмплированием в объемном рендеринге, вынудили 3D GAN использовать обучение на основе патчей или применять рендеринг с низким разрешением с последующей 2D-суперразрешающей постобработкой, что приводит к потере многовидовой согласованности и качества восстановленной геометрии. В результате 3D GAN до сих пор не смогли полностью восстановить богатую 3D-геометрию, присутствующую в 2D-изображениях. В данной работе мы предлагаем методы масштабирования нейронного объемного рендеринга до значительно более высокого разрешения исходных 2D-изображений, что позволяет восстанавливать детализированную 3D-геометрию с беспрецедентной точностью. Наш подход использует обучаемые сэмплеры для ускорения нейронного рендеринга при обучении 3D GAN, сокращая количество сэмплов глубины до 5 раз. Это позволяет нам явно "рендерить каждый пиксель" изображения с полным разрешением как во время обучения, так и на этапе вывода, без необходимости постобработки суперразрешения в 2D. В сочетании с нашей стратегией обучения высококачественной поверхностной геометрии наш метод синтезирует 3D-геометрию с высоким разрешением и строго согласованные по виду изображения, сохраняя качество изображения на уровне базовых методов, использующих постобработку суперразрешения. Мы демонстрируем передовое качество 3D-геометрии на наборах данных FFHQ и AFHQ, устанавливая новый стандарт для неконтролируемого обучения 3D-форм в 3D GAN.
English
3D-aware Generative Adversarial Networks (GANs) have shown remarkable
progress in learning to generate multi-view-consistent images and 3D geometries
of scenes from collections of 2D images via neural volume rendering. Yet, the
significant memory and computational costs of dense sampling in volume
rendering have forced 3D GANs to adopt patch-based training or employ
low-resolution rendering with post-processing 2D super resolution, which
sacrifices multiview consistency and the quality of resolved geometry.
Consequently, 3D GANs have not yet been able to fully resolve the rich 3D
geometry present in 2D images. In this work, we propose techniques to scale
neural volume rendering to the much higher resolution of native 2D images,
thereby resolving fine-grained 3D geometry with unprecedented detail. Our
approach employs learning-based samplers for accelerating neural rendering for
3D GAN training using up to 5 times fewer depth samples. This enables us to
explicitly "render every pixel" of the full-resolution image during training
and inference without post-processing superresolution in 2D. Together with our
strategy to learn high-quality surface geometry, our method synthesizes
high-resolution 3D geometry and strictly view-consistent images while
maintaining image quality on par with baselines relying on post-processing
super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ
and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D
GANs.