LN3Diff: Масштабируемая диффузия латентных нейронных полей для быстрой генерации 3D моделей
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation
March 18, 2024
Авторы: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Аннотация
Область нейронного рендеринга заметила значительный прогресс благодаря развитию генеративных моделей и техник дифференцируемого рендеринга. Хотя двумерная диффузия достигла успеха, единый конвейер трехмерной диффузии остается нерешенным. В данной статье представляется новая концепция под названием LN3Diff, которая направлена на заполнение этого пробела и обеспечивает быстрое, высококачественное и универсальное условное трехмерное поколение. Наш подход использует архитектуру, осознающую трехмерное пространство, и вариационный автокодировщик (VAE) для кодирования входного изображения в структурированное, компактное и трехмерное латентное пространство. Латент декодируется декодером на основе трансформера в трехмерное нейронное поле большой емкости. Обучив модель диффузии на этом трехмерно осознающем латентном пространстве, наш метод достигает передовых результатов на ShapeNet для трехмерной генерации и проявляет превосходную производительность в монокулярной трехмерной реконструкции и условной трехмерной генерации на различных наборах данных. Более того, он превосходит существующие методы трехмерной диффузии по скорости вывода, не требуя оптимизации для каждого экземпляра. Наш предложенный LN3Diff представляет собой значительное продвижение в трехмерном генеративном моделировании и обещает многообещающие результаты для различных приложений в области трехмерного зрения и графики.
English
The field of neural rendering has witnessed significant progress with
advancements in generative models and differentiable rendering techniques.
Though 2D diffusion has achieved success, a unified 3D diffusion pipeline
remains unsettled. This paper introduces a novel framework called LN3Diff to
address this gap and enable fast, high-quality, and generic conditional 3D
generation. Our approach harnesses a 3D-aware architecture and variational
autoencoder (VAE) to encode the input image into a structured, compact, and 3D
latent space. The latent is decoded by a transformer-based decoder into a
high-capacity 3D neural field. Through training a diffusion model on this
3D-aware latent space, our method achieves state-of-the-art performance on
ShapeNet for 3D generation and demonstrates superior performance in monocular
3D reconstruction and conditional 3D generation across various datasets.
Moreover, it surpasses existing 3D diffusion methods in terms of inference
speed, requiring no per-instance optimization. Our proposed LN3Diff presents a
significant advancement in 3D generative modeling and holds promise for various
applications in 3D vision and graphics tasks.Summary
AI-Generated Summary