Beherrschung der Text-zu-Bild-Diffusion: Umformulierung, Planung und Generierung mit multimodalen LLMs
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Autoren: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Zusammenfassung
Diffusionsmodelle haben außergewöhnliche Leistungen in der Text-zu-Bild-Generierung und -Bearbeitung gezeigt. Allerdings stoßen bestehende Methoden oft auf Herausforderungen, wenn es darum geht, komplexe Textanweisungen zu verarbeiten, die mehrere Objekte mit mehreren Attributen und Beziehungen beinhalten. In diesem Artikel schlagen wir ein völlig neues trainingsfreies Framework für die Text-zu-Bild-Generierung und -Bearbeitung vor, nämlich Recaption, Plan and Generate (RPG), das die leistungsstarke Chain-of-Thought-Fähigkeit multimodaler LLMs nutzt, um die Kompositionalität von Text-zu-Bild-Diffusionsmodellen zu verbessern. Unser Ansatz verwendet das MLLM als globalen Planer, um den Prozess der Generierung komplexer Bilder in mehrere einfachere Generierungsaufgaben innerhalb von Teilbereichen zu zerlegen. Wir schlagen eine komplementäre regionale Diffusion vor, um eine regionsweise kompositionelle Generierung zu ermöglichen. Darüber hinaus integrieren wir textgesteuerte Bildgenerierung und -bearbeitung innerhalb des vorgeschlagenen RPG in einer geschlossenen Schleife, wodurch die Generalisierungsfähigkeit verbessert wird. Umfangreiche Experimente zeigen, dass unser RPG die derzeit besten Text-zu-Bild-Diffusionsmodelle, einschließlich DALL-E 3 und SDXL, insbesondere bei der Komposition von Objekten mehrerer Kategorien und der semantischen Ausrichtung von Text und Bild, übertrifft. Bemerkenswert ist, dass unser RPG-Framework eine breite Kompatibilität mit verschiedenen MLLM-Architekturen (z. B. MiniGPT-4) und Diffusions-Backbones (z. B. ControlNet) aufweist. Unser Code ist verfügbar unter: https://github.com/YangLing0818/RPG-DiffusionMaster
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster