DeepImageSearch: Evaluación de Agentes Multimodales para la Recuperación de Imágenes Conscientes del Contexto en Historias Visuales
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
February 11, 2026
Autores: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou
cs.AI
Resumen
Los sistemas de recuperación multimodal existentes sobresalen en la correspondencia semántica, pero asumen implícitamente que la relevancia consulta-imagen puede medirse de forma aislada. Este paradigma pasa por alto las ricas dependencias inherentes a los flujos visuales realistas, donde la información se distribuye a lo largo de secuencias temporales en lugar de confinarse a instantáneas individuales. Para cerrar esta brecha, presentamos DeepImageSearch, un nuevo paradigma agéntico que reformula la recuperación de imágenes como una tarea de exploración autónoma. Los modelos deben planificar y realizar razonamientos multi-paso sobre historiales visuales en bruto para localizar objetivos basándose en pistas contextuales implícitas. Construimos DISBench, un benchmark desafiante basado en datos visuales interconectados. Para abordar el desafío de escalabilidad en la creación de consultas dependientes del contexto, proponemos una canalización colaborativa humano-modelo que emplea modelos de visión y lenguaje para extraer asociaciones espacio-temporales latentes, descargando efectivamente la intensiva labor de descubrimiento de contexto antes de la verificación humana. Además, construimos una línea base robusta utilizando un marco de agente modular equipado con herramientas de grano fino y un sistema de memoria dual para navegación de largo horizonte. Experimentos exhaustivos demuestran que DISBench plantea desafíos significativos a los modelos de vanguardia, destacando la necesidad de incorporar razonamiento agéntico en los sistemas de recuperación de próxima generación.
English
Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.