Dominando la Difusión de Texto a Imagen: Recaptioning, Planificación y Generación con LLMs Multimodales
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Autores: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Resumen
Los modelos de difusión han demostrado un rendimiento excepcional en la generación y edición de imágenes a partir de texto. Sin embargo, los métodos existentes suelen enfrentar desafíos al manejar instrucciones textuales complejas que involucran múltiples objetos con múltiples atributos y relaciones. En este artículo, proponemos un nuevo marco de generación/edición de imágenes a partir de texto que no requiere entrenamiento, denominado Recaption, Plan and Generate (RPG), aprovechando la potente capacidad de razonamiento en cadena de los modelos de lenguaje multimodal (MLLM) para mejorar la composicionalidad de los modelos de difusión de texto a imagen. Nuestro enfoque utiliza el MLLM como un planificador global para descomponer el proceso de generación de imágenes complejas en múltiples tareas de generación más simples dentro de subregiones. Proponemos una difusión regional complementaria para permitir la generación composicional por regiones. Además, integramos la generación y edición de imágenes guiada por texto dentro del RPG propuesto de manera en bucle cerrado, mejorando así la capacidad de generalización. Experimentos exhaustivos demuestran que nuestro RPG supera a los modelos de difusión de texto a imagen más avanzados, incluyendo DALL-E 3 y SDXL, particularmente en la composición de objetos de múltiples categorías y la alineación semántica entre texto e imagen. Cabe destacar que nuestro marco RPG exhibe una amplia compatibilidad con diversas arquitecturas de MLLM (por ejemplo, MiniGPT-4) y backbones de difusión (por ejemplo, ControlNet). Nuestro código está disponible en: https://github.com/YangLing0818/RPG-DiffusionMaster
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster