Beheersing van tekst-naar-beeld diffusie: Herbeschrijving, planning en genereren met multimodale LLM's
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Auteurs: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Samenvatting
Diffusiemodellen hebben uitzonderlijke prestaties getoond in tekst-naar-beeldgeneratie en -bewerking. Bestaande methoden kampen echter vaak met uitdagingen bij het omgaan met complexe tekstprompts die meerdere objecten met meerdere attributen en relaties omvatten. In dit artikel stellen we een geheel nieuw trainingsvrij tekst-naar-beeldgeneratie/-bewerkingsframework voor, genaamd Recaption, Plan and Generate (RPG), dat gebruikmaakt van de krachtige keten-van-gedachtenredeneervaardigheid van multimodale LLM's om de compositionaliteit van tekst-naar-beelddiffusiemodellen te verbeteren. Onze aanpak gebruikt de MLLM als een globale planner om het proces van het genereren van complexe beelden op te splitsen in meerdere eenvoudigere generatietaken binnen subregio's. We stellen complementaire regionale diffusie voor om regionale compositionele generatie mogelijk te maken. Bovendien integreren we tekstgeleide beeldgeneratie en -bewerking binnen het voorgestelde RPG in een gesloten lus, waardoor het generalisatievermogen wordt verbeterd. Uitgebreide experimenten tonen aan dat onze RPG state-of-the-art tekst-naar-beelddiffusiemodellen overtreft, waaronder DALL-E 3 en SDXL, met name in de compositie van meerdere categorieën objecten en de semantische uitlijning van tekst en beeld. Opmerkelijk is dat ons RPG-framework brede compatibiliteit vertoont met verschillende MLLM-architecturen (bijv. MiniGPT-4) en diffusie-backbones (bijv. ControlNet). Onze code is beschikbaar op: https://github.com/YangLing0818/RPG-DiffusionMaster
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster