Beheersing van tekst-naar-beeld diffusie: Herbeschrijving, planning en genereren met multimodale LLM's

Samenvatting

Diffusiemodellen hebben uitzonderlijke prestaties getoond in tekst-naar-beeldgeneratie en -bewerking. Bestaande methoden kampen echter vaak met uitdagingen bij het omgaan met complexe tekstprompts die meerdere objecten met meerdere attributen en relaties omvatten. In dit artikel stellen we een geheel nieuw trainingsvrij tekst-naar-beeldgeneratie/-bewerkingsframework voor, genaamd Recaption, Plan and Generate (RPG), dat gebruikmaakt van de krachtige keten-van-gedachtenredeneervaardigheid van multimodale LLM's om de compositionaliteit van tekst-naar-beelddiffusiemodellen te verbeteren. Onze aanpak gebruikt de MLLM als een globale planner om het proces van het genereren van complexe beelden op te splitsen in meerdere eenvoudigere generatietaken binnen subregio's. We stellen complementaire regionale diffusie voor om regionale compositionele generatie mogelijk te maken. Bovendien integreren we tekstgeleide beeldgeneratie en -bewerking binnen het voorgestelde RPG in een gesloten lus, waardoor het generalisatievermogen wordt verbeterd. Uitgebreide experimenten tonen aan dat onze RPG state-of-the-art tekst-naar-beelddiffusiemodellen overtreft, waaronder DALL-E 3 en SDXL, met name in de compositie van meerdere categorieën objecten en de semantische uitlijning van tekst en beeld. Opmerkelijk is dat ons RPG-framework brede compatibiliteit vertoont met verschillende MLLM-architecturen (bijv. MiniGPT-4) en diffusie-backbones (bijv. ControlNet). Onze code is beschikbaar op: https://github.com/YangLing0818/RPG-DiffusionMaster

English

Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster

Beheersing van tekst-naar-beeld diffusie: Herbeschrijving, planning en genereren met multimodale LLM's

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Samenvatting

Support