Maîtriser la diffusion texte-image : Recaptioning, planification et génération avec des modèles de langage multimodaux

papers.abstract

Les modèles de diffusion ont démontré des performances exceptionnelles dans la génération et l'édition d'images à partir de texte. Cependant, les méthodes existantes rencontrent souvent des difficultés lorsqu'elles traitent des prompts textuels complexes impliquant plusieurs objets avec de multiples attributs et relations. Dans cet article, nous proposons un tout nouveau cadre de génération/édition d'images à partir de texte sans apprentissage, nommé Recaption, Plan and Generate (RPG), qui exploite la puissante capacité de raisonnement en chaîne de pensée des modèles de langage multimodaux (MLLM) pour améliorer la compositionnalité des modèles de diffusion texte-image. Notre approche utilise le MLLM comme planificateur global pour décomposer le processus de génération d'images complexes en plusieurs tâches de génération plus simples au sein de sous-régions. Nous proposons une diffusion régionale complémentaire pour permettre une génération compositionnelle par région. De plus, nous intégrons la génération et l'édition d'images guidées par texte dans le cadre proposé RPG de manière en boucle fermée, améliorant ainsi la capacité de généralisation. Des expériences approfondies démontrent que notre RPG surpasse les modèles de diffusion texte-image de pointe, y compris DALL-E 3 et SDXL, en particulier dans la composition d'objets multi-catégories et l'alignement sémantique texte-image. Notamment, notre cadre RPG présente une large compatibilité avec diverses architectures MLLM (par exemple, MiniGPT-4) et backbones de diffusion (par exemple, ControlNet). Notre code est disponible à l'adresse : https://github.com/YangLing0818/RPG-DiffusionMaster

English

Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster

Maîtriser la diffusion texte-image : Recaptioning, planification et génération avec des modèles de langage multimodaux

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

papers.abstract

Support