ChatPaper.aiChatPaper

ComboVerse: Criação de Ativos 3D Composicionais Usando Orientação de Difusão Espacialmente Consciente

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

March 19, 2024
Autores: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu
cs.AI

Resumo

A geração de ativos 3D de alta qualidade a partir de uma imagem fornecida é altamente desejável em diversas aplicações, como RA/RV. Avanços recentes na geração 3D a partir de uma única imagem exploram modelos de propagação direta que aprendem a inferir o modelo 3D de um objeto sem otimização. Embora resultados promissores tenham sido alcançados na geração de objetos únicos, esses métodos frequentemente enfrentam dificuldades para modelar ativos 3D complexos que contêm naturalmente múltiplos objetos. Neste trabalho, apresentamos o ComboVerse, um framework de geração 3D que produz ativos 3D de alta qualidade com composições complexas ao aprender a combinar múltiplos modelos. 1) Primeiro, realizamos uma análise detalhada dessa "lacuna de múltiplos objetos" tanto do ponto de vista do modelo quanto dos dados. 2) Em seguida, com modelos 3D reconstruídos de diferentes objetos, buscamos ajustar seus tamanhos, ângulos de rotação e localizações para criar um ativo 3D que corresponda à imagem fornecida. 3) Para automatizar esse processo, aplicamos a amostragem de destilação de pontuação espacialmente consciente (SSDS) a partir de modelos de difusão pré-treinados para orientar o posicionamento dos objetos. Nosso framework proposto enfatiza o alinhamento espacial dos objetos, em comparação com a amostragem de destilação de pontuação padrão, alcançando assim resultados mais precisos. Experimentos extensivos validam que o ComboVerse alcança melhorias claras em relação aos métodos existentes na geração de ativos 3D composicionais.
English
Generating high-quality 3D assets from a given image is highly desirable in various applications such as AR/VR. Recent advances in single-image 3D generation explore feed-forward models that learn to infer the 3D model of an object without optimization. Though promising results have been achieved in single object generation, these methods often struggle to model complex 3D assets that inherently contain multiple objects. In this work, we present ComboVerse, a 3D generation framework that produces high-quality 3D assets with complex compositions by learning to combine multiple models. 1) We first perform an in-depth analysis of this ``multi-object gap'' from both model and data perspectives. 2) Next, with reconstructed 3D models of different objects, we seek to adjust their sizes, rotation angles, and locations to create a 3D asset that matches the given image. 3) To automate this process, we apply spatially-aware score distillation sampling (SSDS) from pretrained diffusion models to guide the positioning of objects. Our proposed framework emphasizes spatial alignment of objects, compared with standard score distillation sampling, and thus achieves more accurate results. Extensive experiments validate ComboVerse achieves clear improvements over existing methods in generating compositional 3D assets.
PDF102February 9, 2026