ChatPaper.aiChatPaper

GaussianAnything: Difusão Latente Interativa de Nuvem de Pontos para Geração 3D

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

November 12, 2024
Autores: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

Resumo

Embora a geração de conteúdo 3D tenha avançado significativamente, os métodos existentes ainda enfrentam desafios com formatos de entrada, design de espaço latente e representações de saída. Este artigo apresenta um novo framework de geração 3D que aborda esses desafios, oferecendo geração 3D escalável e de alta qualidade com um espaço latente estruturado em Nuvem de Pontos interativo. Nosso framework utiliza um Autoencoder Variacional (VAE) com renderizações RGB-D(epth)-N(ormal) em multi-visão como entrada, utilizando um design de espaço latente único que preserva informações de forma 3D e incorpora um modelo de difusão latente em cascata para melhorar a separação forma-textura. O método proposto, GaussianAnything, suporta geração 3D condicional multimodal, permitindo entradas de nuvem de pontos, legenda e imagens de visão única/multipla. Notavelmente, o espaço latente recém-proposto permite naturalmente a separação geometria-textura, permitindo assim edição consciente de 3D. Resultados experimentais demonstram a eficácia de nossa abordagem em múltiplos conjuntos de dados, superando os métodos existentes tanto na geração 3D condicionada por texto quanto por imagem.
English
While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent diffusion model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single/multi-view image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing methods in both text- and image-conditioned 3D generation.

Summary

AI-Generated Summary

PDF216November 18, 2024