Generación y Recuperación Unificada de Texto a Imagen

Resumen

Cómo los humanos pueden adquirir imágenes de manera eficiente y efectiva ha sido siempre una pregunta perenne. Una solución típica es la recuperación de texto a imagen a partir de una base de datos existente dada una consulta de texto; sin embargo, la base de datos limitada generalmente carece de creatividad. En contraste, los recientes avances en la generación de texto a imagen han hecho posible producir contenido visual llamativo y diverso, pero enfrenta desafíos en la síntesis de imágenes intensivas en conocimiento. En este trabajo, reconsideramos la relación entre la generación y la recuperación de texto a imagen y proponemos un marco unificado en el contexto de los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés). Específicamente, primero exploramos las habilidades discriminativas intrínsecas de los MLLMs e introducimos un método de recuperación generativa para realizar la recuperación de manera libre de entrenamiento. Posteriormente, unificamos la generación y la recuperación en un enfoque de generación autoregresiva y proponemos un módulo de decisión autónoma para elegir la mejor coincidencia entre las imágenes generadas y recuperadas como respuesta a la consulta de texto. Además, construimos un punto de referencia llamado TIGeR-Bench, que incluye dominios creativos e intensivos en conocimiento, para estandarizar la evaluación de la generación y recuperación unificada de texto a imagen. Los resultados experimentales extensivos en TIGeR-Bench y dos puntos de referencia de recuperación, es decir, Flickr30K y MS-COCO, demuestran la superioridad y efectividad de nuestro método propuesto.

English

How humans can efficiently and effectively acquire images has always been a perennial question. A typical solution is text-to-image retrieval from an existing database given the text query; however, the limited database typically lacks creativity. By contrast, recent breakthroughs in text-to-image generation have made it possible to produce fancy and diverse visual content, but it faces challenges in synthesizing knowledge-intensive images. In this work, we rethink the relationship between text-to-image generation and retrieval and propose a unified framework in the context of Multimodal Large Language Models (MLLMs). Specifically, we first explore the intrinsic discriminative abilities of MLLMs and introduce a generative retrieval method to perform retrieval in a training-free manner. Subsequently, we unify generation and retrieval in an autoregressive generation way and propose an autonomous decision module to choose the best-matched one between generated and retrieved images as the response to the text query. Additionally, we construct a benchmark called TIGeR-Bench, including creative and knowledge-intensive domains, to standardize the evaluation of unified text-to-image generation and retrieval. Extensive experimental results on TIGeR-Bench and two retrieval benchmarks, i.e., Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our proposed method.

Generación y Recuperación Unificada de Texto a Imagen

Unified Text-to-Image Generation and Retrieval

Resumen

Support