Génération et Recherche Unifiées de Texte à Image
Unified Text-to-Image Generation and Retrieval
June 9, 2024
Auteurs: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua
cs.AI
Résumé
La manière dont les humains peuvent acquérir des images de façon efficace et efficiente a toujours été une question récurrente. Une solution typique consiste à effectuer une recherche d'images à partir d'une base de données existante en fonction d'une requête textuelle ; cependant, la base de données limitée manque généralement de créativité. En revanche, les récentes avancées dans la génération d'images à partir de texte ont permis de produire un contenu visuel varié et sophistiqué, mais elles rencontrent des difficultés pour synthétiser des images riches en connaissances. Dans ce travail, nous repensons la relation entre la génération et la recherche d'images à partir de texte et proposons un cadre unifié dans le contexte des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Plus précisément, nous explorons d'abord les capacités discriminatives intrinsèques des MLLMs et introduisons une méthode de recherche générative pour effectuer la recherche sans nécessiter d'entraînement. Ensuite, nous unifions la génération et la recherche dans un processus de génération autorégressive et proposons un module de décision autonome pour choisir la meilleure correspondance entre les images générées et celles récupérées comme réponse à la requête textuelle. De plus, nous construisons un benchmark appelé TIGeR-Bench, incluant des domaines créatifs et riches en connaissances, pour standardiser l'évaluation de la génération et de la recherche unifiées d'images à partir de texte. Les résultats expérimentaux approfondis sur TIGeR-Bench et deux benchmarks de recherche, à savoir Flickr30K et MS-COCO, démontrent la supériorité et l'efficacité de notre méthode proposée.
English
How humans can efficiently and effectively acquire images has always been a
perennial question. A typical solution is text-to-image retrieval from an
existing database given the text query; however, the limited database typically
lacks creativity. By contrast, recent breakthroughs in text-to-image generation
have made it possible to produce fancy and diverse visual content, but it faces
challenges in synthesizing knowledge-intensive images. In this work, we rethink
the relationship between text-to-image generation and retrieval and propose a
unified framework in the context of Multimodal Large Language Models (MLLMs).
Specifically, we first explore the intrinsic discriminative abilities of MLLMs
and introduce a generative retrieval method to perform retrieval in a
training-free manner. Subsequently, we unify generation and retrieval in an
autoregressive generation way and propose an autonomous decision module to
choose the best-matched one between generated and retrieved images as the
response to the text query. Additionally, we construct a benchmark called
TIGeR-Bench, including creative and knowledge-intensive domains, to standardize
the evaluation of unified text-to-image generation and retrieval. Extensive
experimental results on TIGeR-Bench and two retrieval benchmarks, i.e.,
Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our
proposed method.Summary
AI-Generated Summary