ComboVerse: Creazione di Asset 3D Composizionali Utilizzando una Guida alla Diffusione Spazialmente Consapevole

Abstract

La generazione di asset 3D di alta qualità a partire da una determinata immagine è altamente desiderabile in varie applicazioni come AR/VR. I recenti progressi nella generazione 3D da singola immagine esplorano modelli feed-forward che imparano a dedurre il modello 3D di un oggetto senza ottimizzazione. Sebbene siano stati ottenuti risultati promettenti nella generazione di singoli oggetti, questi metodi spesso faticano a modellare asset 3D complessi che contengono intrinsecamente più oggetti. In questo lavoro, presentiamo ComboVerse, un framework di generazione 3D che produce asset 3D di alta qualità con composizioni complesse imparando a combinare più modelli. 1) Iniziamo eseguendo un'analisi approfondita di questo "divario multi-oggetto" sia dal punto di vista del modello che dei dati. 2) Successivamente, con modelli 3D ricostruiti di oggetti diversi, cerchiamo di regolarne le dimensioni, gli angoli di rotazione e le posizioni per creare un asset 3D che corrisponda all'immagine data. 3) Per automatizzare questo processo, applichiamo il campionamento di distillazione del punteggio spazialmente consapevole (SSDS) da modelli di diffusione pre-addestrati per guidare il posizionamento degli oggetti. Il nostro framework proposto enfatizza l'allineamento spaziale degli oggetti, rispetto al campionamento di distillazione del punteggio standard, ottenendo così risultati più accurati. Esperimenti estensivi convalidano che ComboVerse raggiunge miglioramenti significativi rispetto ai metodi esistenti nella generazione di asset 3D composizionali.

English

Generating high-quality 3D assets from a given image is highly desirable in various applications such as AR/VR. Recent advances in single-image 3D generation explore feed-forward models that learn to infer the 3D model of an object without optimization. Though promising results have been achieved in single object generation, these methods often struggle to model complex 3D assets that inherently contain multiple objects. In this work, we present ComboVerse, a 3D generation framework that produces high-quality 3D assets with complex compositions by learning to combine multiple models. 1) We first perform an in-depth analysis of this ``multi-object gap'' from both model and data perspectives. 2) Next, with reconstructed 3D models of different objects, we seek to adjust their sizes, rotation angles, and locations to create a 3D asset that matches the given image. 3) To automate this process, we apply spatially-aware score distillation sampling (SSDS) from pretrained diffusion models to guide the positioning of objects. Our proposed framework emphasizes spatial alignment of objects, compared with standard score distillation sampling, and thus achieves more accurate results. Extensive experiments validate ComboVerse achieves clear improvements over existing methods in generating compositional 3D assets.

ComboVerse: Creazione di Asset 3D Composizionali Utilizzando una Guida alla Diffusione Spazialmente Consapevole

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

Abstract

Support