ChatPaper.aiChatPaper

Melhorando a Consistência Texto-Imagem por meio de Otimização Automática de Prompts

Improving Text-to-Image Consistency via Automatic Prompt Optimization

March 26, 2024
Autores: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI

Resumo

Avanços impressionantes em modelos generativos de texto para imagem (T2I) resultaram em uma infinidade de modelos de alto desempenho capazes de gerar imagens esteticamente atraentes e foto-realistas. Apesar do progresso, esses modelos ainda lutam para produzir imagens consistentes com o prompt de entrada, frequentemente falhando em capturar corretamente quantidades, relações e atributos de objetos. As soluções existentes para melhorar a consistência entre prompt e imagem enfrentam os seguintes desafios: (1) frequentemente exigem ajuste fino do modelo, (2) focam apenas em amostras de prompt próximas, e (3) são afetadas por trocas desfavoráveis entre qualidade da imagem, diversidade de representação e consistência entre prompt e imagem. Neste artigo, abordamos esses desafios e introduzimos um framework de otimização por prompt, OPT2I, que aproveita um modelo de linguagem de grande escala (LLM) para melhorar a consistência entre prompt e imagem em modelos T2I. Nosso framework começa com um prompt do usuário e gera iterativamente prompts revisados com o objetivo de maximizar uma pontuação de consistência. Nossa validação extensiva em dois conjuntos de dados, MSCOCO e PartiPrompts, mostra que o OPT2I pode aumentar a pontuação inicial de consistência em até 24,9% em termos de pontuação DSG, enquanto preserva o FID e aumenta a recall entre dados gerados e reais. Nosso trabalho abre caminho para a construção de sistemas T2I mais confiáveis e robustos, aproveitando o poder dos LLMs.
English
Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs.
PDF201February 7, 2026