X-Dreamer: Создание высококачественного 3D-контента путем преодоления разрыва между доменами генерации текст-в-2D и текст-в-3D
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation
November 30, 2023
Авторы: Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji
cs.AI
Аннотация
В последнее время автоматическое создание 3D-контента на основе текста достигло значительного прогресса благодаря развитию предобученных 2D диффузионных моделей. Существующие методы преобразования текста в 3D обычно оптимизируют 3D-представление, чтобы визуализированное изображение соответствовало заданному тексту, что оценивается с помощью предобученной 2D диффузионной модели. Однако существует значительный разрыв между 2D-изображениями и 3D-активами, обусловленный в основном различиями в атрибутах, связанных с камерой, и исключительным присутствием объектов на переднем плане. В результате прямое использование 2D диффузионных моделей для оптимизации 3D-представлений может приводить к неоптимальным результатам. Для решения этой проблемы мы представляем X-Dreamer — новый подход к созданию высококачественного 3D-контента на основе текста, который эффективно устраняет разрыв между синтезом текста в 2D и текста в 3D. Ключевыми компонентами X-Dreamer являются два инновационных решения: Camera-Guided Low-Rank Adaptation (CG-LoRA) и Attention-Mask Alignment (AMA) Loss. CG-LoRA динамически интегрирует информацию о камере в предобученные диффузионные модели, используя генерацию, зависящую от камеры, для обучаемых параметров. Эта интеграция улучшает соответствие между создаваемыми 3D-активами и перспективой камеры. AMA Loss направляет карту внимания предобученной диффузионной модели с использованием бинарной маски 3D-объекта, уделяя приоритет созданию объекта на переднем плане. Этот модуль гарантирует, что модель сосредоточена на генерации точных и детализированных объектов переднего плана. Многочисленные оценки демонстрируют эффективность нашего предложенного метода по сравнению с существующими подходами преобразования текста в 3D. Наш проект доступен по ссылке: https://xmuxiaoma666.github.io/Projects/X-Dreamer.
English
In recent times, automatic text-to-3D content creation has made significant
progress, driven by the development of pretrained 2D diffusion models. Existing
text-to-3D methods typically optimize the 3D representation to ensure that the
rendered image aligns well with the given text, as evaluated by the pretrained
2D diffusion model. Nevertheless, a substantial domain gap exists between 2D
images and 3D assets, primarily attributed to variations in camera-related
attributes and the exclusive presence of foreground objects. Consequently,
employing 2D diffusion models directly for optimizing 3D representations may
lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a
novel approach for high-quality text-to-3D content creation that effectively
bridges the gap between text-to-2D and text-to-3D synthesis. The key components
of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation
(CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically
incorporates camera information into the pretrained diffusion models by
employing camera-dependent generation for trainable parameters. This
integration enhances the alignment between the generated 3D assets and the
camera's perspective. AMA loss guides the attention map of the pretrained
diffusion model using the binary mask of the 3D object, prioritizing the
creation of the foreground object. This module ensures that the model focuses
on generating accurate and detailed foreground objects. Extensive evaluations
demonstrate the effectiveness of our proposed method compared to existing
text-to-3D approaches. Our project webpage:
https://xmuxiaoma666.github.io/Projects/X-Dreamer .