X-Dreamer: Criando Conteúdo 3D de Alta Qualidade ao Superar a Lacuna de Domínio Entre Geração de Texto para 2D e Texto para 3D
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation
November 30, 2023
Autores: Yiwei Ma, Yijun Fan, Jiayi Ji, Haowei Wang, Xiaoshuai Sun, Guannan Jiang, Annan Shu, Rongrong Ji
cs.AI
Resumo
Recentemente, a criação automática de conteúdo de texto para 3D tem alcançado progressos significativos, impulsionada pelo desenvolvimento de modelos de difusão 2D pré-treinados. Os métodos existentes de texto para 3D geralmente otimizam a representação 3D para garantir que a imagem renderizada esteja alinhada com o texto fornecido, conforme avaliado pelo modelo de difusão 2D pré-treinado. No entanto, existe uma lacuna substancial entre imagens 2D e ativos 3D, atribuída principalmente a variações nos atributos relacionados à câmera e à presença exclusiva de objetos em primeiro plano. Consequentemente, o uso direto de modelos de difusão 2D para otimizar representações 3D pode levar a resultados subótimos. Para resolver esse problema, apresentamos o X-Dreamer, uma abordagem inovadora para a criação de conteúdo de texto para 3D de alta qualidade que efetivamente preenche a lacuna entre a síntese de texto para 2D e texto para 3D. Os componentes-chave do X-Dreamer são dois designs inovadores: a Adaptação de Baixa Ordem Guiada por Câmera (CG-LoRA) e a Perda de Alinhamento de Máscara de Atenção (AMA). O CG-LoRA incorpora dinamicamente informações da câmera nos modelos de difusão pré-treinados, utilizando geração dependente da câmera para parâmetros treináveis. Essa integração melhora o alinhamento entre os ativos 3D gerados e a perspectiva da câmera. A perda AMA guia o mapa de atenção do modelo de difusão pré-treinado usando a máscara binária do objeto 3D, priorizando a criação do objeto em primeiro plano. Esse módulo garante que o modelo se concentre na geração de objetos em primeiro plano precisos e detalhados. Avaliações extensivas demonstram a eficácia do nosso método proposto em comparação com as abordagens existentes de texto para 3D. Nossa página do projeto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.
English
In recent times, automatic text-to-3D content creation has made significant
progress, driven by the development of pretrained 2D diffusion models. Existing
text-to-3D methods typically optimize the 3D representation to ensure that the
rendered image aligns well with the given text, as evaluated by the pretrained
2D diffusion model. Nevertheless, a substantial domain gap exists between 2D
images and 3D assets, primarily attributed to variations in camera-related
attributes and the exclusive presence of foreground objects. Consequently,
employing 2D diffusion models directly for optimizing 3D representations may
lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a
novel approach for high-quality text-to-3D content creation that effectively
bridges the gap between text-to-2D and text-to-3D synthesis. The key components
of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation
(CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically
incorporates camera information into the pretrained diffusion models by
employing camera-dependent generation for trainable parameters. This
integration enhances the alignment between the generated 3D assets and the
camera's perspective. AMA loss guides the attention map of the pretrained
diffusion model using the binary mask of the 3D object, prioritizing the
creation of the foreground object. This module ensures that the model focuses
on generating accurate and detailed foreground objects. Extensive evaluations
demonstrate the effectiveness of our proposed method compared to existing
text-to-3D approaches. Our project webpage:
https://xmuxiaoma666.github.io/Projects/X-Dreamer .