ChatPaper.aiChatPaper

Переосмысление оценки композитного поиска изображений: детализированный бенчмарк на основе редактирования изображений

Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

January 22, 2026
Авторы: Tingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu
cs.AI

Аннотация

Поиск по составным изображениям (CIR) является ключевой и сложной задачей в области мультимодального понимания. Существующие бенчмарки CIR обычно отличаются ограниченным набором категорий запросов и не отражают разнообразные требования реальных сценариев. Чтобы устранить этот пробел в оценке, мы используем редактирование изображений для точного контроля типов и содержания модификаций, создав конвейер синтеза запросов для широкого спектра категорий. С помощью этого конвейера мы создали EDIR — новый детализированный бенчмарк для CIR. EDIR включает 5000 высококачественных запросов, структурированных по пяти основным категориям и пятнадцати подкатегориям. Наше всестороннее тестирование 13 моделей мультимодальных эмбеддингов выявило значительный разрыв в возможностях: даже передовые модели (например, RzenEmbed и GME) демонстрируют нестабильные результаты across всем подкатегориям, что подчеркивает строгость нашего бенчмарка. Сравнительный анализ дополнительно выявляет inherentные ограничения существующих бенчмарков, такие как модальные смещения и недостаточный охват категорий. Кроме того, эксперимент по in-domain обучению подтверждает практическую применимость нашего бенчмарка. Этот эксперимент проясняет сложность задачи, разделяя категории, решаемые с помощью целевых данных, и те, которые выявляют фундаментальные ограничения современных архитектур моделей.
English
Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.
PDF131January 24, 2026