GraPE: Un marco de generación-planificación-edición para la síntesis composicional de texto a imagen (T2I)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
December 8, 2024
Autores: Ashish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla
cs.AI
Resumen
La generación de texto a imagen (T2I) ha experimentado un progreso significativo con modelos de difusión, lo que permite la generación de imágenes fotorrealistas a partir de indicaciones de texto. A pesar de este avance, los métodos existentes aún enfrentan desafíos al seguir indicaciones de texto complejas, especialmente aquellas que requieren razonamiento compositivo y de múltiples pasos. Ante instrucciones tan complejas, los modelos de última generación a menudo cometen errores al modelar fielmente los atributos de los objetos y las relaciones entre ellos. En este trabajo, presentamos un paradigma alternativo para la síntesis T2I, descomponiendo la tarea de generación compleja de múltiples pasos en tres etapas: (a) Generar: primero generamos una imagen utilizando modelos de difusión existentes, (b) Planificar: hacemos uso de Modelos de Lenguaje Multimodal (MLLMs) para identificar los errores en la imagen generada expresados en términos de objetos individuales y sus propiedades, y producimos una secuencia de pasos correctivos requeridos en forma de un plan de edición, (c) Editar: utilizamos modelos de edición de imagen guiados por texto existentes para ejecutar secuencialmente nuestro plan de edición sobre la imagen generada para obtener la imagen deseada que sea fiel a la instrucción original. Nuestro enfoque deriva su fortaleza del hecho de que es modular por naturaleza, no requiere entrenamiento y puede aplicarse a cualquier combinación de modelos de generación y edición de imágenes. Como contribución adicional, también desarrollamos un modelo capaz de edición compositiva, lo que ayuda a mejorar aún más la precisión general de nuestro enfoque propuesto. Nuestro método intercambia de manera flexible el tiempo de inferencia computacional con el rendimiento en indicaciones de texto compositivas. Realizamos una extensa evaluación experimental en 3 benchmarks y 10 modelos T2I, incluidos DALLE-3 y el último, SD-3.5-Large. Nuestro enfoque no solo mejora el rendimiento de los modelos de última generación, hasta 3 puntos, sino que también reduce la brecha de rendimiento entre modelos más débiles y más fuertes.
English
Text-to-image (T2I) generation has seen significant progress with diffusion
models, enabling generation of photo-realistic images from text prompts.
Despite this progress, existing methods still face challenges in following
complex text prompts, especially those requiring compositional and multi-step
reasoning. Given such complex instructions, SOTA models often make mistakes in
faithfully modeling object attributes, and relationships among them. In this
work, we present an alternate paradigm for T2I synthesis, decomposing the task
of complex multi-step generation into three steps, (a) Generate: we first
generate an image using existing diffusion models (b) Plan: we make use of
Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image
expressed in terms of individual objects and their properties, and produce a
sequence of corrective steps required in the form of an edit-plan. (c) Edit: we
make use of an existing text-guided image editing models to sequentially
execute our edit-plan over the generated image to get the desired image which
is faithful to the original instruction. Our approach derives its strength from
the fact that it is modular in nature, is training free, and can be applied
over any combination of image generation and editing models. As an added
contribution, we also develop a model capable of compositional editing, which
further helps improve the overall accuracy of our proposed approach. Our method
flexibly trades inference time compute with performance on compositional text
prompts. We perform extensive experimental evaluation across 3 benchmarks and
10 T2I models including DALLE-3 and the latest -- SD-3.5-Large. Our approach
not only improves the performance of the SOTA models, by upto 3 points, it also
reduces the performance gap between weaker and stronger models.
https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}Summary
AI-Generated Summary