FRAP: Generación de Texto a Imagen Fiel y Realista con Ponderación de Indicaciones Adaptativa
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting
August 21, 2024
Autores: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohan Sai Singamsetti, Fengyu Sun, Wei Lu, Di Niu
cs.AI
Resumen
Los modelos de difusión texto-a-imagen (T2I) han demostrado capacidades impresionantes en la generación de imágenes de alta calidad dada una indicación de texto. Sin embargo, garantizar la alineación entre la indicación y la imagen sigue siendo un desafío considerable, es decir, generar imágenes que se alineen fielmente con la semántica de la indicación. Trabajos recientes intentan mejorar la fidelidad optimizando el código latente, lo cual potencialmente podría llevar al código latente a salir de la distribución y así producir imágenes poco realistas. En este documento, proponemos FRAP, un enfoque simple pero efectivo basado en ajustar de forma adaptativa los pesos de la indicación por token para mejorar la alineación entre la indicación y la imagen, así como la autenticidad de las imágenes generadas. Diseñamos un algoritmo en línea para actualizar de forma adaptativa el coeficiente de peso de cada token, logrado mediante la minimización de una función objetivo unificada que fomenta la presencia de objetos y la unión de pares objeto-modificador. A través de evaluaciones exhaustivas, demostramos que FRAP genera imágenes con una alineación significativamente mayor entre la indicación y las indicaciones de conjuntos de datos complejos, al tiempo que tiene una latencia promedio más baja en comparación con los métodos recientes de optimización de código latente, por ejemplo, 4 segundos más rápido que D&B en el conjunto de datos COCO-Subject. Además, a través de comparaciones visuales y evaluaciones en la métrica CLIP-IQA-Real, mostramos que FRAP no solo mejora la alineación entre la indicación y la imagen, sino que también genera imágenes más auténticas con apariencias realistas. También exploramos la combinación de FRAP con LLM de reescritura de indicaciones para recuperar su alineación degradada entre la indicación y la imagen, donde observamos mejoras tanto en la alineación entre la indicación y la imagen como en la calidad de la imagen.
English
Text-to-image (T2I) diffusion models have demonstrated impressive
capabilities in generating high-quality images given a text prompt. However,
ensuring the prompt-image alignment remains a considerable challenge, i.e.,
generating images that faithfully align with the prompt's semantics. Recent
works attempt to improve the faithfulness by optimizing the latent code, which
potentially could cause the latent code to go out-of-distribution and thus
produce unrealistic images. In this paper, we propose FRAP, a simple, yet
effective approach based on adaptively adjusting the per-token prompt weights
to improve prompt-image alignment and authenticity of the generated images. We
design an online algorithm to adaptively update each token's weight
coefficient, which is achieved by minimizing a unified objective function that
encourages object presence and the binding of object-modifier pairs. Through
extensive evaluations, we show FRAP generates images with significantly higher
prompt-image alignment to prompts from complex datasets, while having a lower
average latency compared to recent latent code optimization methods, e.g., 4
seconds faster than D&B on the COCO-Subject dataset. Furthermore, through
visual comparisons and evaluation on the CLIP-IQA-Real metric, we show that
FRAP not only improves prompt-image alignment but also generates more authentic
images with realistic appearances. We also explore combining FRAP with prompt
rewriting LLM to recover their degraded prompt-image alignment, where we
observe improvements in both prompt-image alignment and image quality.Summary
AI-Generated Summary