ComboVerse: Creación de Activos 3D Compositivos Utilizando Guía de Difusión Espacialmente Consciente
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance
March 19, 2024
Autores: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu
cs.AI
Resumen
La generación de activos 3D de alta calidad a partir de una imagen dada es altamente deseable en diversas aplicaciones como AR/VR. Los avances recientes en la generación 3D a partir de una sola imagen exploran modelos de avance que aprenden a inferir el modelo 3D de un objeto sin optimización. Aunque se han logrado resultados prometedores en la generación de objetos individuales, estos métodos suelen tener dificultades para modelar activos 3D complejos que contienen inherentemente múltiples objetos. En este trabajo, presentamos ComboVerse, un marco de generación 3D que produce activos 3D de alta calidad con composiciones complejas al aprender a combinar múltiples modelos. 1) Primero realizamos un análisis en profundidad de esta "brecha de múltiples objetos" desde las perspectivas del modelo y los datos. 2) Luego, con modelos 3D reconstruidos de diferentes objetos, buscamos ajustar sus tamaños, ángulos de rotación y ubicaciones para crear un activo 3D que coincida con la imagen dada. 3) Para automatizar este proceso, aplicamos el muestreo de destilación de puntuación espacialmente consciente (SSDS) a partir de modelos de difusión preentrenados para guiar la ubicación de los objetos. Nuestro marco propuesto enfatiza la alineación espacial de los objetos, en comparación con el muestreo de destilación de puntuación estándar, logrando así resultados más precisos. Experimentos extensos validan que ComboVerse logra mejoras claras sobre los métodos existentes en la generación de activos 3D composicionales.
English
Generating high-quality 3D assets from a given image is highly desirable in
various applications such as AR/VR. Recent advances in single-image 3D
generation explore feed-forward models that learn to infer the 3D model of an
object without optimization. Though promising results have been achieved in
single object generation, these methods often struggle to model complex 3D
assets that inherently contain multiple objects. In this work, we present
ComboVerse, a 3D generation framework that produces high-quality 3D assets with
complex compositions by learning to combine multiple models. 1) We first
perform an in-depth analysis of this ``multi-object gap'' from both model and
data perspectives. 2) Next, with reconstructed 3D models of different objects,
we seek to adjust their sizes, rotation angles, and locations to create a 3D
asset that matches the given image. 3) To automate this process, we apply
spatially-aware score distillation sampling (SSDS) from pretrained diffusion
models to guide the positioning of objects. Our proposed framework emphasizes
spatial alignment of objects, compared with standard score distillation
sampling, and thus achieves more accurate results. Extensive experiments
validate ComboVerse achieves clear improvements over existing methods in
generating compositional 3D assets.Summary
AI-Generated Summary