ChatPaper.aiChatPaper

LN3Diff: Difusão Escalável de Campos Neurais Latentes para Geração Rápida de Conteúdo 3D

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

March 18, 2024
Autores: Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

Resumo

O campo de renderização neural tem testemunhado progressos significativos com avanços em modelos generativos e técnicas de renderização diferenciável. Embora a difusão 2D tenha alcançado sucesso, um pipeline unificado de difusão 3D ainda não foi estabelecido. Este artigo introduz uma nova estrutura chamada LN3Diff para abordar essa lacuna e permitir a geração condicional 3D rápida, de alta qualidade e genérica. Nossa abordagem utiliza uma arquitetura 3D-aware e um autoencoder variacional (VAE) para codificar a imagem de entrada em um espaço latente estruturado, compacto e 3D. O latente é decodificado por um decodificador baseado em transformador em um campo neural 3D de alta capacidade. Ao treinar um modelo de difusão nesse espaço latente 3D-aware, nosso método alcança desempenho de ponta no ShapeNet para geração 3D e demonstra desempenho superior em reconstrução 3D monocular e geração condicional 3D em vários conjuntos de dados. Além disso, ele supera os métodos existentes de difusão 3D em termos de velocidade de inferência, não exigindo otimização por instância. Nosso LN3Diff proposto representa um avanço significativo na modelagem generativa 3D e promete diversas aplicações em tarefas de visão e gráficos 3D.
English
The field of neural rendering has witnessed significant progress with advancements in generative models and differentiable rendering techniques. Though 2D diffusion has achieved success, a unified 3D diffusion pipeline remains unsettled. This paper introduces a novel framework called LN3Diff to address this gap and enable fast, high-quality, and generic conditional 3D generation. Our approach harnesses a 3D-aware architecture and variational autoencoder (VAE) to encode the input image into a structured, compact, and 3D latent space. The latent is decoded by a transformer-based decoder into a high-capacity 3D neural field. Through training a diffusion model on this 3D-aware latent space, our method achieves state-of-the-art performance on ShapeNet for 3D generation and demonstrates superior performance in monocular 3D reconstruction and conditional 3D generation across various datasets. Moreover, it surpasses existing 3D diffusion methods in terms of inference speed, requiring no per-instance optimization. Our proposed LN3Diff presents a significant advancement in 3D generative modeling and holds promise for various applications in 3D vision and graphics tasks.
PDF102December 15, 2024