Padroneggiare la diffusione da testo a immagine: Ridescrizione, pianificazione e generazione con modelli linguistici multimodali
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Autori: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Abstract
I modelli di diffusione hanno dimostrato prestazioni eccezionali nella generazione e modifica di immagini da testo. Tuttavia, i metodi esistenti spesso incontrano difficoltà nel gestire prompt testuali complessi che coinvolgono più oggetti con molteplici attributi e relazioni. In questo articolo, proponiamo un nuovo framework per la generazione/modifica di immagini da testo senza necessità di addestramento, denominato Recaption, Plan and Generate (RPG), che sfrutta la potente capacità di ragionamento a catena di pensiero dei modelli linguistici multimodali (MLLM) per migliorare la composizionalità dei modelli di diffusione testo-immagine. Il nostro approccio utilizza l'MLLM come pianificatore globale per scomporre il processo di generazione di immagini complesse in più compiti di generazione più semplici all'interno di sottoregioni. Proponiamo una diffusione regionale complementare per abilitare la generazione composizionale a livello di regione. Inoltre, integriamo la generazione e modifica di immagini guidata da testo all'interno del framework RPG proposto in modo a ciclo chiuso, migliorando così la capacità di generalizzazione. Esperimenti estensivi dimostrano che il nostro RPG supera i modelli di diffusione testo-immagine all'avanguardia, inclusi DALL-E 3 e SDXL, in particolare nella composizione di oggetti multi-categoria e nell'allineamento semantico testo-immagine. È importante notare che il nostro framework RPG mostra una vasta compatibilità con varie architetture MLLM (ad esempio, MiniGPT-4) e backbone di diffusione (ad esempio, ControlNet). Il nostro codice è disponibile all'indirizzo: https://github.com/YangLing0818/RPG-DiffusionMaster
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster