LN3Diff: Skalierbare latente neuronale Felder Diffusion für schnelle 3D-Generierung
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation
March 18, 2024
Autoren: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Zusammenfassung
Das Gebiet des neuronalen Renderns hat bedeutende Fortschritte durch Entwicklungen in generativen Modellen und differenzierbaren Rendertechniken erlebt. Obwohl 2D-Diffusion Erfolg erzielt hat, bleibt eine vereinheitlichte 3D-Diffusionspipeline ungelöst. Dieser Artikel stellt ein neuartiges Framework namens LN3Diff vor, um diese Lücke zu schließen und schnelle, hochwertige und generische bedingte 3D-Generierung zu ermöglichen. Unser Ansatz nutzt eine 3D-bewusste Architektur und einen Variationalen Autoencoder (VAE), um das Eingabebild in einen strukturierten, kompakten und 3D-Latentraum zu kodieren. Das Latent wird von einem auf Transformer basierenden Decoder in ein leistungsstarkes 3D-Neuronenfeld decodiert. Durch das Training eines Diffusionsmodells in diesem 3D-bewussten Latentraum erreicht unsere Methode Spitzenleistungen auf ShapeNet für 3D-Generierung und zeigt überlegene Leistung bei monokulärer 3D-Rekonstruktion und bedingter 3D-Generierung über verschiedene Datensätze hinweg. Darüber hinaus übertrifft sie bestehende 3D-Diffusionsmethoden in Bezug auf Inferenzgeschwindigkeit, ohne eine Optimierung pro Instanz zu erfordern. Unser vorgeschlagenes LN3Diff stellt einen bedeutenden Fortschritt in der 3D-generativen Modellierung dar und birgt vielversprechende Anwendungen in 3D-Vision und Grafikaufgaben.
English
The field of neural rendering has witnessed significant progress with
advancements in generative models and differentiable rendering techniques.
Though 2D diffusion has achieved success, a unified 3D diffusion pipeline
remains unsettled. This paper introduces a novel framework called LN3Diff to
address this gap and enable fast, high-quality, and generic conditional 3D
generation. Our approach harnesses a 3D-aware architecture and variational
autoencoder (VAE) to encode the input image into a structured, compact, and 3D
latent space. The latent is decoded by a transformer-based decoder into a
high-capacity 3D neural field. Through training a diffusion model on this
3D-aware latent space, our method achieves state-of-the-art performance on
ShapeNet for 3D generation and demonstrates superior performance in monocular
3D reconstruction and conditional 3D generation across various datasets.
Moreover, it surpasses existing 3D diffusion methods in terms of inference
speed, requiring no per-instance optimization. Our proposed LN3Diff presents a
significant advancement in 3D generative modeling and holds promise for various
applications in 3D vision and graphics tasks.Summary
AI-Generated Summary