Padroneggiare la diffusione da testo a immagine: Ridescrizione, pianificazione e generazione con modelli linguistici multimodali

Abstract

I modelli di diffusione hanno dimostrato prestazioni eccezionali nella generazione e modifica di immagini da testo. Tuttavia, i metodi esistenti spesso incontrano difficoltà nel gestire prompt testuali complessi che coinvolgono più oggetti con molteplici attributi e relazioni. In questo articolo, proponiamo un nuovo framework per la generazione/modifica di immagini da testo senza necessità di addestramento, denominato Recaption, Plan and Generate (RPG), che sfrutta la potente capacità di ragionamento a catena di pensiero dei modelli linguistici multimodali (MLLM) per migliorare la composizionalità dei modelli di diffusione testo-immagine. Il nostro approccio utilizza l'MLLM come pianificatore globale per scomporre il processo di generazione di immagini complesse in più compiti di generazione più semplici all'interno di sottoregioni. Proponiamo una diffusione regionale complementare per abilitare la generazione composizionale a livello di regione. Inoltre, integriamo la generazione e modifica di immagini guidata da testo all'interno del framework RPG proposto in modo a ciclo chiuso, migliorando così la capacità di generalizzazione. Esperimenti estensivi dimostrano che il nostro RPG supera i modelli di diffusione testo-immagine all'avanguardia, inclusi DALL-E 3 e SDXL, in particolare nella composizione di oggetti multi-categoria e nell'allineamento semantico testo-immagine. È importante notare che il nostro framework RPG mostra una vasta compatibilità con varie architetture MLLM (ad esempio, MiniGPT-4) e backbone di diffusione (ad esempio, ControlNet). Il nostro codice è disponibile all'indirizzo: https://github.com/YangLing0818/RPG-DiffusionMaster

English

Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster

Padroneggiare la diffusione da testo a immagine: Ridescrizione, pianificazione e generazione con modelli linguistici multimodali

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Abstract

Support