Dominando a Difusão de Texto para Imagem: Recaptioning, Planejamento e Geração com LLMs Multimodais
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Autores: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Resumo
Os modelos de difusão têm demonstrado desempenho excepcional na geração e edição de imagens a partir de texto. No entanto, os métodos existentes frequentemente enfrentam desafios ao lidar com prompts de texto complexos que envolvem múltiplos objetos com múltiplos atributos e relações. Neste artigo, propomos uma nova estrutura de geração/edição de imagens a partir de texto sem necessidade de treinamento, denominada Recaption, Plan and Generate (RPG), que aproveita a poderosa capacidade de raciocínio em cadeia de pensamento de LLMs multimodais para melhorar a composicionalidade dos modelos de difusão de texto para imagem. Nossa abordagem utiliza o MLLM como um planejador global para decompor o processo de geração de imagens complexas em múltiplas tarefas de geração mais simples dentro de sub-regiões. Propomos uma difusão regional complementar para permitir a geração composicional por região. Além disso, integramos a geração e edição de imagens guiada por texto dentro do RPG proposto de forma em loop fechado, aumentando assim a capacidade de generalização. Experimentos extensivos demonstram que nosso RPG supera os modelos de difusão de texto para imagem mais avançados, incluindo DALL-E 3 e SDXL, particularmente na composição de objetos de múltiplas categorias e no alinhamento semântico entre texto e imagem. Notavelmente, nossa estrutura RPG exibe ampla compatibilidade com várias arquiteturas de MLLM (por exemplo, MiniGPT-4) e backbones de difusão (por exemplo, ControlNet). Nosso código está disponível em: https://github.com/YangLing0818/RPG-DiffusionMaster
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster