IA-T2I: Generación de Imágenes a partir de Texto Aumentada con Internet
IA-T2I: Internet-Augmented Text-to-Image Generation
May 21, 2025
Autores: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI
Resumen
Los modelos actuales de generación de texto a imagen (T2I) obtienen resultados prometedores, pero fallan en escenarios donde el conocimiento implícito en el texto es incierto. Por ejemplo, un modelo T2I lanzado en febrero tendría dificultades para generar un póster adecuado para una película que se estrena en abril, porque los diseños y estilos de los personajes son inciertos para el modelo. Para resolver este problema, proponemos un marco de generación de texto a imagen aumentado con Internet (IA-T2I) que permite a los modelos T2I aclarar dicho conocimiento incierto proporcionándoles imágenes de referencia. Específicamente, se diseña un módulo de recuperación activa para determinar si se necesita una imagen de referencia basándose en el texto proporcionado; se introduce un módulo de selección jerárquica de imágenes para encontrar la imagen más adecuada devuelta por un motor de búsqueda de imágenes y mejorar el modelo T2I; y se presenta un mecanismo de autorreflexión para evaluar y refinar continuamente la imagen generada, asegurando una alineación fiel con el texto. Para evaluar el rendimiento del marco propuesto, recopilamos un conjunto de datos llamado Img-Ref-T2I, donde los textos incluyen tres tipos de conocimiento incierto: (1) conocido pero raro, (2) desconocido y (3) ambiguo. Además, elaboramos cuidadosamente un texto complejo para guiar a GPT-4o en la evaluación de preferencias, que ha demostrado tener una precisión similar a la evaluación humana de preferencias. Los resultados experimentales demuestran la efectividad de nuestro marco, superando a GPT-4o en aproximadamente un 30% en la evaluación humana.
English
Current text-to-image (T2I) generation models achieve promising results, but
they fail on the scenarios where the knowledge implied in the text prompt is
uncertain. For example, a T2I model released in February would struggle to
generate a suitable poster for a movie premiering in April, because the
character designs and styles are uncertain to the model. To solve this problem,
we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to
compel T2I models clear about such uncertain knowledge by providing them with
reference images. Specifically, an active retrieval module is designed to
determine whether a reference image is needed based on the given text prompt; a
hierarchical image selection module is introduced to find the most suitable
image returned by an image search engine to enhance the T2I model; a
self-reflection mechanism is presented to continuously evaluate and refine the
generated image to ensure faithful alignment with the text prompt. To evaluate
the proposed framework's performance, we collect a dataset named Img-Ref-T2I,
where text prompts include three types of uncertain knowledge: (1) known but
rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt
to guide GPT-4o in making preference evaluation, which has been shown to have
an evaluation accuracy similar to that of human preference evaluation.
Experimental results demonstrate the effectiveness of our framework,
outperforming GPT-4o by about 30% in human evaluation.Summary
AI-Generated Summary