ChatPaper.aiChatPaper

ComboVerse: Compositionele 3D-assetcreatie met ruimtelijk bewuste diffusiebegeleiding

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

March 19, 2024
Auteurs: Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, Ziwei Liu
cs.AI

Samenvatting

Het genereren van hoogwaardige 3D-assets vanuit een gegeven afbeelding is zeer gewenst in verschillende toepassingen zoals AR/VR. Recente vooruitgang in 3D-generatie vanuit één afbeelding onderzoekt feed-forward modellen die leren om het 3D-model van een object af te leiden zonder optimalisatie. Hoewel veelbelovende resultaten zijn behaald bij het genereren van enkele objecten, hebben deze methoden vaak moeite met het modelleren van complexe 3D-assets die inherent meerdere objecten bevatten. In dit werk presenteren we ComboVerse, een 3D-generatiekader dat hoogwaardige 3D-assets met complexe composities produceert door te leren om meerdere modellen te combineren. 1) We voeren eerst een diepgaande analyse uit van deze "multi-object kloof" vanuit zowel model- als dataperspectief. 2) Vervolgens, met gereconstrueerde 3D-modellen van verschillende objecten, streven we ernaar om hun afmetingen, rotatiehoeken en locaties aan te passen om een 3D-asset te creëren dat overeenkomt met de gegeven afbeelding. 3) Om dit proces te automatiseren, passen we ruimtelijk bewuste score-distillatie-sampling (SSDS) toe vanuit voorgetrainde diffusiemodellen om de positionering van objecten te begeleiden. Ons voorgestelde kader benadrukt de ruimtelijke uitlijning van objecten, vergeleken met standaard score-distillatie-sampling, en behaalt daardoor nauwkeurigere resultaten. Uitgebreide experimenten valideren dat ComboVerse duidelijke verbeteringen bereikt ten opzichte van bestaande methoden in het genereren van compositionele 3D-assets.
English
Generating high-quality 3D assets from a given image is highly desirable in various applications such as AR/VR. Recent advances in single-image 3D generation explore feed-forward models that learn to infer the 3D model of an object without optimization. Though promising results have been achieved in single object generation, these methods often struggle to model complex 3D assets that inherently contain multiple objects. In this work, we present ComboVerse, a 3D generation framework that produces high-quality 3D assets with complex compositions by learning to combine multiple models. 1) We first perform an in-depth analysis of this ``multi-object gap'' from both model and data perspectives. 2) Next, with reconstructed 3D models of different objects, we seek to adjust their sizes, rotation angles, and locations to create a 3D asset that matches the given image. 3) To automate this process, we apply spatially-aware score distillation sampling (SSDS) from pretrained diffusion models to guide the positioning of objects. Our proposed framework emphasizes spatial alignment of objects, compared with standard score distillation sampling, and thus achieves more accurate results. Extensive experiments validate ComboVerse achieves clear improvements over existing methods in generating compositional 3D assets.
PDF102February 9, 2026