ChatPaper.aiChatPaper

Mejorando la consistencia texto-imagen mediante optimización automática de prompts

Improving Text-to-Image Consistency via Automatic Prompt Optimization

March 26, 2024
Autores: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI

Resumen

Los impresionantes avances en los modelos generativos de texto a imagen (T2I) han dado lugar a una plétora de modelos de alto rendimiento capaces de generar imágenes estéticamente atractivas y fotorrealistas. A pesar del progreso, estos modelos aún luchan por producir imágenes consistentes con la indicación de entrada, a menudo fallando en capturar correctamente las cantidades, relaciones y atributos de los objetos. Las soluciones existentes para mejorar la consistencia entre la indicación y la imagen enfrentan los siguientes desafíos: (1) a menudo requieren ajustes finos del modelo, (2) se centran únicamente en muestras cercanas de la indicación, y (3) se ven afectadas por compensaciones desfavorables entre la calidad de la imagen, la diversidad de representación y la consistencia entre la indicación y la imagen. En este artículo, abordamos estos desafíos e introducimos un marco de optimización por indicación para T2I, OPT2I, que aprovecha un modelo de lenguaje grande (LLM) para mejorar la consistencia entre la indicación y la imagen en los modelos T2I. Nuestro marco comienza con una indicación del usuario y genera iterativamente indicaciones revisadas con el objetivo de maximizar una puntuación de consistencia. Nuestra extensa validación en dos conjuntos de datos, MSCOCO y PartiPrompts, muestra que OPT2I puede aumentar la puntuación inicial de consistencia hasta en un 24.9% en términos de la puntuación DSG, mientras preserva el FID y aumenta la recuperación entre los datos generados y los reales. Nuestro trabajo allana el camino hacia la construcción de sistemas T2I más confiables y robustos aprovechando el poder de los LLMs.
English
Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs.

Summary

AI-Generated Summary

PDF191December 15, 2024