ChatPaper.aiChatPaper

LN3Diff: Difusión Escalable de Campos Neuronales Latentes para Generación Rápida en 3D

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

March 18, 2024
Autores: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

Resumen

El campo del renderizado neuronal ha experimentado avances significativos con los progresos en modelos generativos y técnicas de renderizado diferenciable. Aunque la difusión 2D ha logrado éxito, una pipeline unificada de difusión 3D sigue sin estar resuelta. Este artículo introduce un marco novedoso llamado LN3Diff para abordar esta brecha y permitir una generación 3D condicional rápida, de alta calidad y genérica. Nuestro enfoque aprovecha una arquitectura 3D-aware y un autoencoder variacional (VAE) para codificar la imagen de entrada en un espacio latente estructurado, compacto y 3D. El latente es decodificado por un decodificador basado en transformadores en un campo neuronal 3D de alta capacidad. Al entrenar un modelo de difusión en este espacio latente 3D-aware, nuestro método logra un rendimiento de vanguardia en ShapeNet para la generación 3D y demuestra un desempeño superior en la reconstrucción 3D monocular y la generación 3D condicional en varios conjuntos de datos. Además, supera a los métodos existentes de difusión 3D en términos de velocidad de inferencia, sin requerir optimización por instancia. Nuestro LN3Diff propuesto representa un avance significativo en el modelado generativo 3D y promete diversas aplicaciones en tareas de visión y gráficos 3D.
English
The field of neural rendering has witnessed significant progress with advancements in generative models and differentiable rendering techniques. Though 2D diffusion has achieved success, a unified 3D diffusion pipeline remains unsettled. This paper introduces a novel framework called LN3Diff to address this gap and enable fast, high-quality, and generic conditional 3D generation. Our approach harnesses a 3D-aware architecture and variational autoencoder (VAE) to encode the input image into a structured, compact, and 3D latent space. The latent is decoded by a transformer-based decoder into a high-capacity 3D neural field. Through training a diffusion model on this 3D-aware latent space, our method achieves state-of-the-art performance on ShapeNet for 3D generation and demonstrates superior performance in monocular 3D reconstruction and conditional 3D generation across various datasets. Moreover, it surpasses existing 3D diffusion methods in terms of inference speed, requiring no per-instance optimization. Our proposed LN3Diff presents a significant advancement in 3D generative modeling and holds promise for various applications in 3D vision and graphics tasks.
PDF102December 15, 2024