ChatPaper.aiChatPaper

ComboVerse : Création d'actifs 3D compositionnels grâce à un guidage de diffusion spatialement conscient

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

March 19, 2024
Auteurs: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu
cs.AI

Résumé

La génération d'actifs 3D de haute qualité à partir d'une image donnée est très recherchée dans diverses applications telles que la réalité augmentée (AR) et la réalité virtuelle (VR). Les avancées récentes dans la génération 3D à partir d'une seule image explorent des modèles feed-forward qui apprennent à inférer le modèle 3D d'un objet sans optimisation. Bien que des résultats prometteurs aient été obtenus pour la génération d'objets individuels, ces méthodes peinent souvent à modéliser des actifs 3D complexes contenant intrinsèquement plusieurs objets. Dans ce travail, nous présentons ComboVerse, un cadre de génération 3D qui produit des actifs 3D de haute qualité avec des compositions complexes en apprenant à combiner plusieurs modèles. 1) Nous effectuons d'abord une analyse approfondie de cet « écart multi-objets » à la fois du point de vue du modèle et des données. 2) Ensuite, avec des modèles 3D reconstruits de différents objets, nous cherchons à ajuster leurs tailles, angles de rotation et positions pour créer un actif 3D correspondant à l'image donnée. 3) Pour automatiser ce processus, nous appliquons un échantillonnage de distillation de scores spatialement conscient (SSDS) à partir de modèles de diffusion pré-entraînés pour guider le positionnement des objets. Notre cadre proposé met l'accent sur l'alignement spatial des objets, par rapport à l'échantillonnage de distillation de scores standard, et obtient ainsi des résultats plus précis. Des expériences approfondies valident que ComboVerse apporte des améliorations significatives par rapport aux méthodes existantes dans la génération d'actifs 3D compositionnels.
English
Generating high-quality 3D assets from a given image is highly desirable in various applications such as AR/VR. Recent advances in single-image 3D generation explore feed-forward models that learn to infer the 3D model of an object without optimization. Though promising results have been achieved in single object generation, these methods often struggle to model complex 3D assets that inherently contain multiple objects. In this work, we present ComboVerse, a 3D generation framework that produces high-quality 3D assets with complex compositions by learning to combine multiple models. 1) We first perform an in-depth analysis of this ``multi-object gap'' from both model and data perspectives. 2) Next, with reconstructed 3D models of different objects, we seek to adjust their sizes, rotation angles, and locations to create a 3D asset that matches the given image. 3) To automate this process, we apply spatially-aware score distillation sampling (SSDS) from pretrained diffusion models to guide the positioning of objects. Our proposed framework emphasizes spatial alignment of objects, compared with standard score distillation sampling, and thus achieves more accurate results. Extensive experiments validate ComboVerse achieves clear improvements over existing methods in generating compositional 3D assets.

Summary

AI-Generated Summary

PDF102December 15, 2024