Magic-Boost: Potenziamento della Generazione 3D con Diffusione Condizionata Multi-Vista

Abstract

Traendo vantaggio dal rapido sviluppo dei modelli di diffusione 2D, la creazione di contenuti 3D ha compiuto progressi significativi di recente. Una soluzione promettente prevede il fine-tuning di modelli di diffusione 2D pre-addestrati per sfruttare la loro capacità di produrre immagini multi-vista, che vengono poi convertite in modelli 3D accurati tramite metodi come fast-NeRFs o modelli di ricostruzione su larga scala. Tuttavia, poiché persistono incongruenze e la risoluzione generata è limitata, i risultati di generazione di tali metodi mancano ancora di texture intricate e geometrie complesse. Per risolvere questo problema, proponiamo Magic-Boost, un modello di diffusione condizionato multi-vista che affina significativamente i risultati generativi grezzi attraverso un breve periodo di ottimizzazione SDS (circa 15 minuti). Rispetto ai precedenti modelli di diffusione basati su testo o singole immagini, Magic-Boost dimostra una robusta capacità di generare immagini con elevata coerenza a partire da immagini multi-vista pseudo-sintetizzate. Fornisce una guida SDS precisa che si allinea bene con l'identità delle immagini di input, arricchendo i dettagli locali sia nella geometria che nella texture dei risultati generativi iniziali. Esperimenti estensivi dimostrano che Magic-Boost migliora notevolmente gli input grezzi e genera asset 3D di alta qualità con ricchi dettagli geometrici e testurali. (Pagina del progetto: https://magic-research.github.io/magic-boost/)

English

Benefiting from the rapid development of 2D diffusion models, 3D content creation has made significant progress recently. One promising solution involves the fine-tuning of pre-trained 2D diffusion models to harness their capacity for producing multi-view images, which are then lifted into accurate 3D models via methods like fast-NeRFs or large reconstruction models. However, as inconsistency still exists and limited generated resolution, the generation results of such methods still lack intricate textures and complex geometries. To solve this problem, we propose Magic-Boost, a multi-view conditioned diffusion model that significantly refines coarse generative results through a brief period of SDS optimization (sim15min). Compared to the previous text or single image based diffusion models, Magic-Boost exhibits a robust capability to generate images with high consistency from pseudo synthesized multi-view images. It provides precise SDS guidance that well aligns with the identity of the input images, enriching the local detail in both geometry and texture of the initial generative results. Extensive experiments show Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D assets with rich geometric and textural details. (Project Page: https://magic-research.github.io/magic-boost/)

Magic-Boost: Potenziamento della Generazione 3D con Diffusione Condizionata Multi-Vista

Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion

Abstract

Support