Maîtriser la diffusion texte-image : Recaptioning, planification et génération avec des modèles de langage multimodaux
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Auteurs: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Résumé
Les modèles de diffusion ont démontré des performances exceptionnelles dans la génération et l'édition d'images à partir de texte. Cependant, les méthodes existantes rencontrent souvent des difficultés lorsqu'elles traitent des prompts textuels complexes impliquant plusieurs objets avec de multiples attributs et relations. Dans cet article, nous proposons un tout nouveau cadre de génération/édition d'images à partir de texte sans apprentissage, nommé Recaption, Plan and Generate (RPG), qui exploite la puissante capacité de raisonnement en chaîne de pensée des modèles de langage multimodaux (MLLM) pour améliorer la compositionnalité des modèles de diffusion texte-image. Notre approche utilise le MLLM comme planificateur global pour décomposer le processus de génération d'images complexes en plusieurs tâches de génération plus simples au sein de sous-régions. Nous proposons une diffusion régionale complémentaire pour permettre une génération compositionnelle par région. De plus, nous intégrons la génération et l'édition d'images guidées par texte dans le cadre proposé RPG de manière en boucle fermée, améliorant ainsi la capacité de généralisation. Des expériences approfondies démontrent que notre RPG surpasse les modèles de diffusion texte-image de pointe, y compris DALL-E 3 et SDXL, en particulier dans la composition d'objets multi-catégories et l'alignement sémantique texte-image. Notamment, notre cadre RPG présente une large compatibilité avec diverses architectures MLLM (par exemple, MiniGPT-4) et backbones de diffusion (par exemple, ControlNet). Notre code est disponible à l'adresse : https://github.com/YangLing0818/RPG-DiffusionMaster
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster