LN3Diff: Schaalbaar Latent Neurale Velden Diffusie voor Snelle 3D-generatie
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation
March 18, 2024
Auteurs: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Samenvatting
Het vakgebied van neurale rendering heeft aanzienlijke vooruitgang geboekt met de ontwikkelingen in generatieve modellen en differentieerbare renderingtechnieken. Hoewel 2D-diffusie succes heeft behaald, blijft een uniforme 3D-diffusiepijplijn nog onopgelost. Dit artikel introduceert een nieuw raamwerk genaamd LN3Diff om deze kloof te overbruggen en snelle, hoogwaardige en generieke conditionele 3D-generatie mogelijk te maken. Onze aanpak maakt gebruik van een 3D-bewuste architectuur en een variational autoencoder (VAE) om de invoerafbeelding te coderen in een gestructureerde, compacte en 3D-latente ruimte. De latente representatie wordt door een transformer-gebaseerde decoder gedecodeerd in een hoogwaardig 3D-neuraal veld. Door een diffusiemodel te trainen op deze 3D-bewuste latente ruimte, bereikt onze methode state-of-the-art prestaties op ShapeNet voor 3D-generatie en toont het superieure prestaties in monoculaire 3D-reconstructie en conditionele 3D-generatie over verschillende datasets. Bovendien overtreft het bestaande 3D-diffusiemethoden wat betreft inferentiesnelheid, zonder dat er per-instantie optimalisatie nodig is. Onze voorgestelde LN3Diff vertegenwoordigt een significante vooruitgang in 3D-generatieve modellering en biedt veelbelovende mogelijkheden voor diverse toepassingen in 3D-visie en grafische taken.
English
The field of neural rendering has witnessed significant progress with
advancements in generative models and differentiable rendering techniques.
Though 2D diffusion has achieved success, a unified 3D diffusion pipeline
remains unsettled. This paper introduces a novel framework called LN3Diff to
address this gap and enable fast, high-quality, and generic conditional 3D
generation. Our approach harnesses a 3D-aware architecture and variational
autoencoder (VAE) to encode the input image into a structured, compact, and 3D
latent space. The latent is decoded by a transformer-based decoder into a
high-capacity 3D neural field. Through training a diffusion model on this
3D-aware latent space, our method achieves state-of-the-art performance on
ShapeNet for 3D generation and demonstrates superior performance in monocular
3D reconstruction and conditional 3D generation across various datasets.
Moreover, it surpasses existing 3D diffusion methods in terms of inference
speed, requiring no per-instance optimization. Our proposed LN3Diff presents a
significant advancement in 3D generative modeling and holds promise for various
applications in 3D vision and graphics tasks.