Generación y Recuperación Unificada de Texto a Imagen
Unified Text-to-Image Generation and Retrieval
June 9, 2024
Autores: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua
cs.AI
Resumen
Cómo los humanos pueden adquirir imágenes de manera eficiente y efectiva ha sido siempre una pregunta perenne. Una solución típica es la recuperación de texto a imagen a partir de una base de datos existente dada una consulta de texto; sin embargo, la base de datos limitada generalmente carece de creatividad. En contraste, los recientes avances en la generación de texto a imagen han hecho posible producir contenido visual llamativo y diverso, pero enfrenta desafíos en la síntesis de imágenes intensivas en conocimiento. En este trabajo, reconsideramos la relación entre la generación y la recuperación de texto a imagen y proponemos un marco unificado en el contexto de los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés). Específicamente, primero exploramos las habilidades discriminativas intrínsecas de los MLLMs e introducimos un método de recuperación generativa para realizar la recuperación de manera libre de entrenamiento. Posteriormente, unificamos la generación y la recuperación en un enfoque de generación autoregresiva y proponemos un módulo de decisión autónoma para elegir la mejor coincidencia entre las imágenes generadas y recuperadas como respuesta a la consulta de texto. Además, construimos un punto de referencia llamado TIGeR-Bench, que incluye dominios creativos e intensivos en conocimiento, para estandarizar la evaluación de la generación y recuperación unificada de texto a imagen. Los resultados experimentales extensivos en TIGeR-Bench y dos puntos de referencia de recuperación, es decir, Flickr30K y MS-COCO, demuestran la superioridad y efectividad de nuestro método propuesto.
English
How humans can efficiently and effectively acquire images has always been a
perennial question. A typical solution is text-to-image retrieval from an
existing database given the text query; however, the limited database typically
lacks creativity. By contrast, recent breakthroughs in text-to-image generation
have made it possible to produce fancy and diverse visual content, but it faces
challenges in synthesizing knowledge-intensive images. In this work, we rethink
the relationship between text-to-image generation and retrieval and propose a
unified framework in the context of Multimodal Large Language Models (MLLMs).
Specifically, we first explore the intrinsic discriminative abilities of MLLMs
and introduce a generative retrieval method to perform retrieval in a
training-free manner. Subsequently, we unify generation and retrieval in an
autoregressive generation way and propose an autonomous decision module to
choose the best-matched one between generated and retrieved images as the
response to the text query. Additionally, we construct a benchmark called
TIGeR-Bench, including creative and knowledge-intensive domains, to standardize
the evaluation of unified text-to-image generation and retrieval. Extensive
experimental results on TIGeR-Bench and two retrieval benchmarks, i.e.,
Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our
proposed method.Summary
AI-Generated Summary