ChatPaper.aiChatPaper

LN3Diff : Diffusion de champs neuronaux latents évolutifs pour une génération 3D rapide

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

March 18, 2024
Auteurs: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

Résumé

Le domaine du rendu neuronal a connu des progrès significatifs grâce aux avancées des modèles génératifs et des techniques de rendu différentiable. Bien que la diffusion 2D ait connu du succès, un pipeline unifié de diffusion 3D reste à établir. Cet article présente un nouveau cadre appelé LN3Diff pour combler cette lacune et permettre une génération 3D conditionnelle rapide, de haute qualité et générique. Notre approche exploite une architecture 3D-aware et un autoencodeur variationnel (VAE) pour encoder l'image d'entrée dans un espace latent structuré, compact et 3D. Le latent est décodé par un décodeur basé sur un transformateur en un champ neuronal 3D à haute capacité. En entraînant un modèle de diffusion sur cet espace latent 3D-aware, notre méthode atteint des performances de pointe sur ShapeNet pour la génération 3D et démontre une performance supérieure en reconstruction 3D monoculaire et en génération 3D conditionnelle sur divers jeux de données. De plus, elle surpasse les méthodes existantes de diffusion 3D en termes de vitesse d'inférence, ne nécessitant aucune optimisation par instance. Notre proposition LN3Diff représente une avancée significative dans la modélisation générative 3D et promet diverses applications dans les tâches de vision et de graphisme 3D.
English
The field of neural rendering has witnessed significant progress with advancements in generative models and differentiable rendering techniques. Though 2D diffusion has achieved success, a unified 3D diffusion pipeline remains unsettled. This paper introduces a novel framework called LN3Diff to address this gap and enable fast, high-quality, and generic conditional 3D generation. Our approach harnesses a 3D-aware architecture and variational autoencoder (VAE) to encode the input image into a structured, compact, and 3D latent space. The latent is decoded by a transformer-based decoder into a high-capacity 3D neural field. Through training a diffusion model on this 3D-aware latent space, our method achieves state-of-the-art performance on ShapeNet for 3D generation and demonstrates superior performance in monocular 3D reconstruction and conditional 3D generation across various datasets. Moreover, it surpasses existing 3D diffusion methods in terms of inference speed, requiring no per-instance optimization. Our proposed LN3Diff presents a significant advancement in 3D generative modeling and holds promise for various applications in 3D vision and graphics tasks.

Summary

AI-Generated Summary

PDF102December 15, 2024