GaussianAnything: Difusión Latente Interactiva de Nube de Puntos para Generación 3D
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
November 12, 2024
Autores: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Resumen
Aunque la generación de contenido 3D ha avanzado significativamente, los métodos existentes todavía enfrentan desafíos con los formatos de entrada, el diseño del espacio latente y las representaciones de salida. Este artículo presenta un nuevo marco de trabajo para la generación 3D que aborda estos desafíos, ofreciendo una generación 3D escalable y de alta calidad con un espacio latente interactivo estructurado en Nube de Puntos. Nuestro marco de trabajo emplea un Autoencoder Variacional (VAE) con representaciones RGB-D(epth)-N(ormal) de múltiples vistas como entrada, utilizando un diseño único de espacio latente que preserva la información de forma 3D e incorpora un modelo de difusión latente en cascada para una mejor desentrelazamiento forma-textura. El método propuesto, GaussianAnything, soporta generación 3D condicional multimodal, permitiendo entradas de nube de puntos, subtítulos e imágenes de vista única/múltiple. Notablemente, el espacio latente recién propuesto permite naturalmente el desentrelazamiento geometría-textura, permitiendo así la edición consciente de 3D. Los resultados experimentales demuestran la efectividad de nuestro enfoque en múltiples conjuntos de datos, superando a los métodos existentes tanto en la generación 3D condicionada por texto como por imagen.
English
While 3D content generation has advanced significantly, existing methods
still face challenges with input formats, latent space design, and output
representations. This paper introduces a novel 3D generation framework that
addresses these challenges, offering scalable, high-quality 3D generation with
an interactive Point Cloud-structured Latent space. Our framework employs a
Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal)
renderings as input, using a unique latent space design that preserves 3D shape
information, and incorporates a cascaded latent diffusion model for improved
shape-texture disentanglement. The proposed method, GaussianAnything, supports
multi-modal conditional 3D generation, allowing for point cloud, caption, and
single/multi-view image inputs. Notably, the newly proposed latent space
naturally enables geometry-texture disentanglement, thus allowing 3D-aware
editing. Experimental results demonstrate the effectiveness of our approach on
multiple datasets, outperforming existing methods in both text- and
image-conditioned 3D generation.Summary
AI-Generated Summary