画像編集に基づくきめ細かいベンチマークによる構成画像検索評価の再考
Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
January 22, 2026
著者: Tingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu
cs.AI
要旨
構成画像検索(CIR)はマルチモーダル理解における重要な複雑なタスクである。現在のCIRベンチマークは、一般的にクエリのカテゴリが限定的であり、現実世界の多様な要求を捉えきれていない。この評価ギャップを埋めるため、我々は画像編集技術を活用して修正タイプと内容を精密に制御し、幅広いカテゴリにわたるクエリ合成のパイプラインを実現した。このパイプラインを用いて、新たな細粒度CIRベンチマークであるEDIRを構築した。EDIRは5つの主要カテゴリと15のサブカテゴリで構成される5,000の高品質なクエリを含む。13のマルチモーダル埋め込みモデルに対する包括的評価により、重大な能力ギャップが明らかになった。例えばRzenEmbedやGMEといった最先端モデルでさえ、全てのサブカテゴリで一貫した性能を発揮するには至らず、本ベンチマークの厳密性が示された。比較分析を通じて、モダリティバイアスやカテゴリ coverage の不足といった既存ベンチマークの内在的限界をさらに解明した。さらに、ドメイン内学習実験により本ベンチマークの実用性を実証した。この実験では、特定データで解決可能なカテゴリと、現在のモデルアーキテクチャの本質的限界が露呈するカテゴリを区別することにより、タスクの課題を明確化している。
English
Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.