X-Dreamer: Creación de contenido 3D de alta calidad al cerrar la brecha de dominio entre la generación de texto a 2D y texto a 3D
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation
November 30, 2023
Autores: Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji
cs.AI
Resumen
En los últimos tiempos, la creación automática de contenido de texto a 3D ha experimentado avances significativos, impulsada por el desarrollo de modelos de difusión 2D preentrenados. Los métodos existentes de texto a 3D suelen optimizar la representación 3D para garantizar que la imagen renderizada se alinee bien con el texto proporcionado, según lo evaluado por el modelo de difusión 2D preentrenado. Sin embargo, existe una brecha sustancial entre las imágenes 2D y los activos 3D, atribuida principalmente a variaciones en los atributos relacionados con la cámara y la presencia exclusiva de objetos en primer plano. En consecuencia, el uso directo de modelos de difusión 2D para optimizar representaciones 3D puede dar lugar a resultados subóptimos. Para abordar este problema, presentamos X-Dreamer, un enfoque novedoso para la creación de contenido de texto a 3D de alta calidad que efectivamente cierra la brecha entre la síntesis de texto a 2D y texto a 3D. Los componentes clave de X-Dreamer son dos diseños innovadores: la Adaptación de Bajo Rango Guiada por Cámara (CG-LoRA) y la Pérdida de Alineación de Máscara de Atención (AMA). CG-LoRA incorpora dinámicamente información de la cámara en los modelos de difusión preentrenados mediante la generación dependiente de la cámara para parámetros entrenables. Esta integración mejora la alineación entre los activos 3D generados y la perspectiva de la cámara. La pérdida AMA guía el mapa de atención del modelo de difusión preentrenado utilizando la máscara binaria del objeto 3D, priorizando la creación del objeto en primer plano. Este módulo asegura que el modelo se enfoque en generar objetos en primer plano precisos y detallados. Evaluaciones exhaustivas demuestran la efectividad de nuestro método propuesto en comparación con los enfoques existentes de texto a 3D. Nuestra página del proyecto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.
English
In recent times, automatic text-to-3D content creation has made significant
progress, driven by the development of pretrained 2D diffusion models. Existing
text-to-3D methods typically optimize the 3D representation to ensure that the
rendered image aligns well with the given text, as evaluated by the pretrained
2D diffusion model. Nevertheless, a substantial domain gap exists between 2D
images and 3D assets, primarily attributed to variations in camera-related
attributes and the exclusive presence of foreground objects. Consequently,
employing 2D diffusion models directly for optimizing 3D representations may
lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a
novel approach for high-quality text-to-3D content creation that effectively
bridges the gap between text-to-2D and text-to-3D synthesis. The key components
of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation
(CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically
incorporates camera information into the pretrained diffusion models by
employing camera-dependent generation for trainable parameters. This
integration enhances the alignment between the generated 3D assets and the
camera's perspective. AMA loss guides the attention map of the pretrained
diffusion model using the binary mask of the 3D object, prioritizing the
creation of the foreground object. This module ensures that the model focuses
on generating accurate and detailed foreground objects. Extensive evaluations
demonstrate the effectiveness of our proposed method compared to existing
text-to-3D approaches. Our project webpage:
https://xmuxiaoma666.github.io/Projects/X-Dreamer .