IA-T2I: Generación de Imágenes a partir de Texto Aumentada con Internet

Resumen

Los modelos actuales de generación de texto a imagen (T2I) obtienen resultados prometedores, pero fallan en escenarios donde el conocimiento implícito en el texto es incierto. Por ejemplo, un modelo T2I lanzado en febrero tendría dificultades para generar un póster adecuado para una película que se estrena en abril, porque los diseños y estilos de los personajes son inciertos para el modelo. Para resolver este problema, proponemos un marco de generación de texto a imagen aumentado con Internet (IA-T2I) que permite a los modelos T2I aclarar dicho conocimiento incierto proporcionándoles imágenes de referencia. Específicamente, se diseña un módulo de recuperación activa para determinar si se necesita una imagen de referencia basándose en el texto proporcionado; se introduce un módulo de selección jerárquica de imágenes para encontrar la imagen más adecuada devuelta por un motor de búsqueda de imágenes y mejorar el modelo T2I; y se presenta un mecanismo de autorreflexión para evaluar y refinar continuamente la imagen generada, asegurando una alineación fiel con el texto. Para evaluar el rendimiento del marco propuesto, recopilamos un conjunto de datos llamado Img-Ref-T2I, donde los textos incluyen tres tipos de conocimiento incierto: (1) conocido pero raro, (2) desconocido y (3) ambiguo. Además, elaboramos cuidadosamente un texto complejo para guiar a GPT-4o en la evaluación de preferencias, que ha demostrado tener una precisión similar a la evaluación humana de preferencias. Los resultados experimentales demuestran la efectividad de nuestro marco, superando a GPT-4o en aproximadamente un 30% en la evaluación humana.

English

Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework's performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.

IA-T2I: Generación de Imágenes a partir de Texto Aumentada con Internet

IA-T2I: Internet-Augmented Text-to-Image Generation

Resumen

Support