X-Dreamer: Creazione di Contenuti 3D di Alta Qualità Colmando il Divario di Dominio tra Generazione da Testo a 2D e da Testo a 3D

Abstract

Negli ultimi tempi, la creazione automatica di contenuti da testo a 3D ha compiuto progressi significativi, grazie allo sviluppo di modelli di diffusione 2D pre-addestrati. I metodi esistenti per la conversione da testo a 3D ottimizzano tipicamente la rappresentazione 3D per garantire che l'immagine renderizzata si allinei bene con il testo fornito, come valutato dal modello di diffusione 2D pre-addestrato. Tuttavia, esiste un divario sostanziale tra le immagini 2D e gli asset 3D, attribuibile principalmente alle variazioni negli attributi legati alla fotocamera e alla presenza esclusiva di oggetti in primo piano. Di conseguenza, l'uso diretto di modelli di diffusione 2D per ottimizzare le rappresentazioni 3D può portare a risultati subottimali. Per affrontare questo problema, presentiamo X-Dreamer, un approccio innovativo per la creazione di contenuti da testo a 3D di alta qualità che colma efficacemente il divario tra la sintesi da testo a 2D e da testo a 3D. I componenti chiave di X-Dreamer sono due design innovativi: l'Adattamento a Basso Rango Guidato dalla Fotocamera (CG-LoRA) e la Perdita di Allineamento della Maschera di Attenzione (AMA Loss). CG-LoRA incorpora dinamicamente le informazioni della fotocamera nei modelli di diffusione pre-addestrati utilizzando una generazione dipendente dalla fotocamera per i parametri addestrabili. Questa integrazione migliora l'allineamento tra gli asset 3D generati e la prospettiva della fotocamera. La perdita AMA guida la mappa di attenzione del modello di diffusione pre-addestrato utilizzando la maschera binaria dell'oggetto 3D, dando priorità alla creazione dell'oggetto in primo piano. Questo modulo garantisce che il modello si concentri sulla generazione di oggetti in primo piano accurati e dettagliati. Valutazioni estensive dimostrano l'efficacia del nostro metodo proposto rispetto agli approcci esistenti da testo a 3D. La pagina web del nostro progetto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.

English

In recent times, automatic text-to-3D content creation has made significant progress, driven by the development of pretrained 2D diffusion models. Existing text-to-3D methods typically optimize the 3D representation to ensure that the rendered image aligns well with the given text, as evaluated by the pretrained 2D diffusion model. Nevertheless, a substantial domain gap exists between 2D images and 3D assets, primarily attributed to variations in camera-related attributes and the exclusive presence of foreground objects. Consequently, employing 2D diffusion models directly for optimizing 3D representations may lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a novel approach for high-quality text-to-3D content creation that effectively bridges the gap between text-to-2D and text-to-3D synthesis. The key components of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically incorporates camera information into the pretrained diffusion models by employing camera-dependent generation for trainable parameters. This integration enhances the alignment between the generated 3D assets and the camera's perspective. AMA loss guides the attention map of the pretrained diffusion model using the binary mask of the 3D object, prioritizing the creation of the foreground object. This module ensures that the model focuses on generating accurate and detailed foreground objects. Extensive evaluations demonstrate the effectiveness of our proposed method compared to existing text-to-3D approaches. Our project webpage: https://xmuxiaoma666.github.io/Projects/X-Dreamer .

X-Dreamer: Creazione di Contenuti 3D di Alta Qualità Colmando il Divario di Dominio tra Generazione da Testo a 2D e da Testo a 3D

X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

Abstract

Support