ChatPaper.aiChatPaper

統一的なテキストから画像への生成と検索

Unified Text-to-Image Generation and Retrieval

June 9, 2024
著者: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua
cs.AI

要旨

人間が効率的かつ効果的に画像を取得する方法は、常に普遍的な課題であり続けてきた。典型的な解決策は、テキストクエリに基づいて既存のデータベースからテキスト-画像検索を行うことである。しかし、限られたデータベースでは創造性に欠けることが多い。一方、最近のテキスト-画像生成のブレークスルーにより、斬新で多様な視覚コンテンツを生成することが可能になったが、知識集約型の画像を合成する際には課題に直面している。本研究では、テキスト-画像生成と検索の関係を再考し、マルチモーダル大規模言語モデル(MLLMs)の文脈において統一フレームワークを提案する。具体的には、まずMLLMsの本質的な識別能力を探り、トレーニング不要な生成型検索手法を導入する。次に、生成と検索を自己回帰生成方式で統一し、テキストクエリに対する応答として生成画像と検索画像のうち最適なものを選択する自律決定モジュールを提案する。さらに、創造的領域と知識集約型領域を含むTIGeR-Benchというベンチマークを構築し、統一テキスト-画像生成と検索の評価を標準化する。TIGeR-Benchおよび2つの検索ベンチマーク(Flickr30KとMS-COCO)での広範な実験結果は、提案手法の優位性と有効性を実証している。
English
How humans can efficiently and effectively acquire images has always been a perennial question. A typical solution is text-to-image retrieval from an existing database given the text query; however, the limited database typically lacks creativity. By contrast, recent breakthroughs in text-to-image generation have made it possible to produce fancy and diverse visual content, but it faces challenges in synthesizing knowledge-intensive images. In this work, we rethink the relationship between text-to-image generation and retrieval and propose a unified framework in the context of Multimodal Large Language Models (MLLMs). Specifically, we first explore the intrinsic discriminative abilities of MLLMs and introduce a generative retrieval method to perform retrieval in a training-free manner. Subsequently, we unify generation and retrieval in an autoregressive generation way and propose an autonomous decision module to choose the best-matched one between generated and retrieved images as the response to the text query. Additionally, we construct a benchmark called TIGeR-Bench, including creative and knowledge-intensive domains, to standardize the evaluation of unified text-to-image generation and retrieval. Extensive experimental results on TIGeR-Bench and two retrieval benchmarks, i.e., Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our proposed method.

Summary

AI-Generated Summary

PDF160December 8, 2024