Neubewertung der Evaluierung von Composed Image Retrieval: Ein feinkörniger Benchmark aus der Bildbearbeitung
Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
January 22, 2026
papers.authors: Tingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu
cs.AI
papers.abstract
Composed Image Retrieval (CIR) ist eine zentrale und komplexe Aufgabe im multimodalen Verständnis. Aktuelle CIR-Benchmarks weisen in der Regel nur begrenzte Abfragekategorien auf und erfassen nicht die vielfältigen Anforderungen realer Szenarien. Um diese Bewertungslücke zu schließen, nutzen wir Bildbearbeitung, um eine präzise Steuerung der Änderungstypen und -inhalte zu erreichen. Dies ermöglicht eine Pipeline zur Synthese von Abfragen über ein breites Kategorienspektrum. Mit dieser Pipeline erstellen wir EDIR, einen neuartigen, fein granularen CIR-Benchmark. EDIR umfasst 5.000 hochwertige Abfragen, die über fünf Hauptkategorien und fünfzehn Unterkategorien strukturiert sind. Unsere umfassende Evaluation von 13 multimodalen Einbettungsmodellen zeigt eine erhebliche Fähigkeitslücke auf; selbst state-of-the-art Modelle (z.B. RzenEmbed und GME) haben Schwierigkeiten, in allen Unterkategorien konsistent zu performen, was den rigorosen Charakter unseres Benchmarks unterstreicht. Durch vergleichende Analysen decken wir weiterhin inhärente Grenzen bestehender Benchmarks auf, wie Modalbias und unzureichende Kategorieabdeckung. Darüber hinaus zeigt ein In-Domain-Trainingsexperiment die Machbarkeit unseres Benchmarks. Dieses Experiment klärt die Herausforderungen der Aufgabe, indem es zwischen Kategorien unterscheidet, die mit gezielten Daten lösbar sind, und solchen, die grundlegende Grenzen der aktuellen Modellarchitekturen aufdecken.
English
Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.