X-Dreamer : Création de contenu 3D de haute qualité en comblant l'écart de domaine entre la génération texte-à-2D et texte-à-3D

Résumé

Récemment, la création automatique de contenu texte-à-3D a réalisé des progrès significatifs, grâce au développement de modèles de diffusion 2D pré-entraînés. Les méthodes existantes de texte-à-3D optimisent généralement la représentation 3D pour s'assurer que l'image rendue correspond bien au texte donné, tel qu'évalué par le modèle de diffusion 2D pré-entraîné. Néanmoins, un écart de domaine substantiel existe entre les images 2D et les assets 3D, principalement attribuable aux variations des attributs liés à la caméra et à la présence exclusive d'objets au premier plan. Par conséquent, l'utilisation directe de modèles de diffusion 2D pour optimiser les représentations 3D peut conduire à des résultats sous-optimaux. Pour résoudre ce problème, nous présentons X-Dreamer, une nouvelle approche pour la création de contenu texte-à-3D de haute qualité qui comble efficacement l'écart entre la synthèse texte-à-2D et texte-à-3D. Les composants clés de X-Dreamer sont deux conceptions innovantes : l'Adaptation de Bas Rang Guidée par la Caméra (CG-LoRA) et la Perte d'Alignement par Masque d'Attention (AMA). CG-LoRA intègre dynamiquement les informations de la caméra dans les modèles de diffusion pré-entraînés en utilisant une génération dépendante de la caméra pour les paramètres entraînables. Cette intégration améliore l'alignement entre les assets 3D générés et la perspective de la caméra. La perte AMA guide la carte d'attention du modèle de diffusion pré-entraîné en utilisant le masque binaire de l'objet 3D, priorisant la création de l'objet au premier plan. Ce module garantit que le modèle se concentre sur la génération d'objets au premier plan précis et détaillés. Des évaluations approfondies démontrent l'efficacité de notre méthode proposée par rapport aux approches existantes de texte-à-3D. Notre page web de projet : https://xmuxiaoma666.github.io/Projects/X-Dreamer .

English

In recent times, automatic text-to-3D content creation has made significant progress, driven by the development of pretrained 2D diffusion models. Existing text-to-3D methods typically optimize the 3D representation to ensure that the rendered image aligns well with the given text, as evaluated by the pretrained 2D diffusion model. Nevertheless, a substantial domain gap exists between 2D images and 3D assets, primarily attributed to variations in camera-related attributes and the exclusive presence of foreground objects. Consequently, employing 2D diffusion models directly for optimizing 3D representations may lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a novel approach for high-quality text-to-3D content creation that effectively bridges the gap between text-to-2D and text-to-3D synthesis. The key components of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically incorporates camera information into the pretrained diffusion models by employing camera-dependent generation for trainable parameters. This integration enhances the alignment between the generated 3D assets and the camera's perspective. AMA loss guides the attention map of the pretrained diffusion model using the binary mask of the 3D object, prioritizing the creation of the foreground object. This module ensures that the model focuses on generating accurate and detailed foreground objects. Extensive evaluations demonstrate the effectiveness of our proposed method compared to existing text-to-3D approaches. Our project webpage: https://xmuxiaoma666.github.io/Projects/X-Dreamer .

X-Dreamer : Création de contenu 3D de haute qualité en comblant l'écart de domaine entre la génération texte-à-2D et texte-à-3D

X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

Résumé

Support