CoLLM: 合成画像検索のための大規模言語モデル
CoLLM: A Large Language Model for Composed Image Retrieval
March 25, 2025
著者: Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
cs.AI
要旨
合成画像検索(Composed Image Retrieval, CIR)は、マルチモーダルクエリに基づいて画像を検索する複雑なタスクです。典型的なトレーニングデータは、参照画像、望ましい変更を記述したテキスト、およびターゲット画像を含むトリプレットで構成されており、これらを取得するにはコストと時間がかかります。CIRデータセットの不足により、合成トリプレットを利用するゼロショットアプローチや、ウェブクロールされた画像-キャプションペアを活用する視覚-言語モデル(VLMs)が用いられてきました。しかし、これらの方法には重大な制限があります:合成トリプレットは規模が限られており、多様性に欠け、不自然な変更テキストが含まれることが多く、画像-キャプションペアはトリプレットデータの欠如により、マルチモーダルクエリの共同埋め込み学習を妨げます。さらに、既存のアプローチは、視覚と言語モダリティの高度な融合と理解を要求する複雑で微妙な変更テキストに対処するのに苦労しています。本論文では、これらの制限を効果的に解決するワンストップフレームワークであるCoLLMを提案します。私たちのアプローチは、画像-キャプションペアからオンザフライでトリプレットを生成し、手動のアノテーションなしで教師あり学習を可能にします。大規模言語モデル(LLMs)を活用して、参照画像と変更テキストの共同埋め込みを生成し、より深いマルチモーダル融合を促進します。さらに、340万サンプルからなる大規模データセットであるMulti-Text CIR(MTCIR)を導入し、既存のCIRベンチマーク(CIRRおよびFashion-IQ)を改良して評価の信頼性を高めます。実験結果は、CoLLMが複数のCIRベンチマークと設定において最先端の性能を達成することを示しています。MTCIRは、最大15%の性能向上をもたらし、競争力のある結果を提供します。私たちが改良したベンチマークは、CIRモデルのより信頼性の高い評価指標を提供し、この重要な分野の進展に貢献します。
English
Composed Image Retrieval (CIR) is a complex task that aims to retrieve images
based on a multimodal query. Typical training data consists of triplets
containing a reference image, a textual description of desired modifications,
and the target image, which are expensive and time-consuming to acquire. The
scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic
triplets or leveraging vision-language models (VLMs) with ubiquitous
web-crawled image-caption pairs. However, these methods have significant
limitations: synthetic triplets suffer from limited scale, lack of diversity,
and unnatural modification text, while image-caption pairs hinder joint
embedding learning of the multimodal query due to the absence of triplet data.
Moreover, existing approaches struggle with complex and nuanced modification
texts that demand sophisticated fusion and understanding of vision and language
modalities. We present CoLLM, a one-stop framework that effectively addresses
these limitations. Our approach generates triplets on-the-fly from
image-caption pairs, enabling supervised training without manual annotation. We
leverage Large Language Models (LLMs) to generate joint embeddings of reference
images and modification texts, facilitating deeper multimodal fusion.
Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset
comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and
Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate
that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks
and settings. MTCIR yields competitive results, with up to 15% performance
improvement. Our refined benchmarks provide more reliable evaluation metrics
for CIR models, contributing to the advancement of this important field.Summary
AI-Generated Summary