ChatPaper.aiChatPaper

이미지 편집에서 비롯된 세분화된 벤치마크를 통한 구성적 이미지 검색 평가 재고

Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

January 22, 2026
저자: Tingyu Song, Yanzhao Zhang, Mingxin Li, Zhuoning Guo, Dingkun Long, Pengjun Xie, Siyue Zhang, Yilun Zhao, Shu Wu
cs.AI

초록

컴포지트 이미지 검색(CIR)은 멀티모달 이해 분야에서 핵심적이면서도 복잡한 과제입니다. 기존 CIR 벤치마크는 일반적으로 제한된 질의 범주를 특징으로 하며, 실제 시나리오의 다양한 요구사항을 충분히 반영하지 못합니다. 이러한 평가 격차를 해소하기 위해 우리는 이미지 편집을 활용하여 수정 유형과 콘텐츠를 정밀하게 제어함으로써 광범위한 범주에 걸쳐 질의를 합성하는 파이프라인을 구현했습니다. 이 파이프라인을 이용해 우리는 새로운 세분화된 CIR 벤치마크인 EDIR을 구축했습니다. EDIR은 5개의 주요 범주와 15개의 하위 범주로 구성된 5,000개의 고품질 질의를 포함합니다. 13개의 멀티모달 임베딩 모델에 대한 포괄적 평가를 통해 상당한 능력 격차가 확인되었습니다. 최첨단 모델(예: RzenEmbed, GME)조차 모든 하위 범주에서 일관된 성능을 발휘하는 데 어려움을 겪으며, 우리 벤치마크의 엄격한 특성이 부각되었습니다. 비교 분석을 통해 우리는 모달리티 편향 및 불충분한 범주 coverage와 같은 기존 벤치마크의 본질적 한계를 추가적으로 규명했습니다. 더 나아가, 인-도메인 학습 실험을 통해 우리 벤치마크의 실현 가능성을 입증했습니다. 해당 실험은 특화된 데이터로 해결 가능한 범주와 현재 모델 아키텍처의 본질적 한계를 드러내는 범주를 구분함으로써 과제의 난이도를 명확히 합니다.
English
Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.
PDF131January 24, 2026