LN3Diff: Diffusione Scalabile di Campi Neurali Latenti per la Generazione Rapida di Contenuti 3D
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation
March 18, 2024
Autori: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Abstract
Il campo del rendering neurale ha registrato progressi significativi con i
progressi nei modelli generativi e nelle tecniche di rendering differenziabile.
Sebbene la diffusione 2D abbia ottenuto successo, una pipeline unificata per la
diffusione 3D rimane ancora da definire. Questo articolo introduce un nuovo
framework chiamato LN3Diff per colmare questa lacuna e abilitare una generazione
3D condizionata rapida, di alta qualità e generica. Il nostro approccio sfrutta
un'architettura 3D-aware e un autoencoder variazionale (VAE) per codificare
l'immagine di input in uno spazio latente strutturato, compatto e 3D. Il latente
viene decodificato da un decoder basato su transformer in un campo neurale 3D ad
alta capacità. Addestrando un modello di diffusione su questo spazio latente
3D-aware, il nostro metodo raggiunge prestazioni all'avanguardia su ShapeNet per
la generazione 3D e dimostra prestazioni superiori nella ricostruzione 3D
monoculare e nella generazione 3D condizionata su vari dataset. Inoltre,
supera i metodi di diffusione 3D esistenti in termini di velocità di inferenza,
non richiedendo ottimizzazione per ogni istanza. Il nostro LN3Diff proposto
rappresenta un progresso significativo nella modellazione generativa 3D e
promette varie applicazioni nei compiti di visione e grafica 3D.
English
The field of neural rendering has witnessed significant progress with
advancements in generative models and differentiable rendering techniques.
Though 2D diffusion has achieved success, a unified 3D diffusion pipeline
remains unsettled. This paper introduces a novel framework called LN3Diff to
address this gap and enable fast, high-quality, and generic conditional 3D
generation. Our approach harnesses a 3D-aware architecture and variational
autoencoder (VAE) to encode the input image into a structured, compact, and 3D
latent space. The latent is decoded by a transformer-based decoder into a
high-capacity 3D neural field. Through training a diffusion model on this
3D-aware latent space, our method achieves state-of-the-art performance on
ShapeNet for 3D generation and demonstrates superior performance in monocular
3D reconstruction and conditional 3D generation across various datasets.
Moreover, it surpasses existing 3D diffusion methods in terms of inference
speed, requiring no per-instance optimization. Our proposed LN3Diff presents a
significant advancement in 3D generative modeling and holds promise for various
applications in 3D vision and graphics tasks.