Replanteamiento de la Evaluación en Recuperación de Imágenes Compuestas: Un Benchmark de Grano Fino a partir de la Edición de Imágenes

Resumen

La Recuperación de Imágenes Compuestas (CIR) es una tarea fundamental y compleja en la comprensión multimodal. Los puntos de referencia actuales para CIR suelen presentar categorías de consulta limitadas y no logran capturar los diversos requisitos de los escenarios del mundo real. Para salvar esta brecha de evaluación, aprovechamos la edición de imágenes para lograr un control preciso sobre los tipos de modificación y el contenido, permitiendo un proceso para sintetizar consultas en un amplio espectro de categorías. Utilizando este proceso, construimos EDIR, un nuevo punto de referencia CIR de grano fino. EDIR abarca 5,000 consultas de alta calidad estructuradas en cinco categorías principales y quince subcategorías. Nuestra evaluación exhaustiva de 13 modelos de incrustación multimodal revela una brecha de capacidad significativa; incluso los modelos más avanzados (por ejemplo, RzenEmbed y GME) tienen dificultades para rendir de manera consistente en todas las subcategorías, lo que subraya el rigor de nuestro punto de referencia. Mediante un análisis comparativo, descubrimos además limitaciones inherentes en los puntos de referencia existentes, como sesgos de modalidad y una cobertura categorial insuficiente. Además, un experimento de entrenamiento en el dominio demuestra la viabilidad de nuestro benchmark. Este experimento aclara los desafíos de la tarea al distinguir entre categorías que son resolubles con datos específicos y aquellas que exponen limitaciones intrínsecas de las arquitecturas de modelos actuales.

English

Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.