DeepImageSearch : Évaluation comparative d'agents multimodaux pour la recherche d'images contextuelles dans des historiques visuels
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
February 11, 2026
papers.authors: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou
cs.AI
papers.abstract
Les systèmes de recherche multimodaux existants excellent dans l'appariement sémantique, mais supposent implicitement que la pertinence requête-image peut être évaluée de manière isolée. Ce paradigme néglige les riches dépendances inhérentes aux flux visuels réalistes, où l'information est distribuée le long de séquences temporelles plutôt que confinée à des instantanés uniques. Pour combler cette lacune, nous présentons DeepImageSearch, un nouveau paradigme agentiel qui reformule la recherche d'images comme une tâche d'exploration autonome. Les modèles doivent planifier et effectuer un raisonnement multi-étapes sur des historiques visuels bruts pour localiser des cibles sur la base d'indices contextuels implicites. Nous construisons DISBench, un benchmark exigeant construit sur des données visuelles interconnectées. Pour relever le défi de l'évolutivité dans la création de requêtes dépendantes du contexte, nous proposons un pipeline collaboratif humain-modèle qui emploie des modèles vision-langage pour extraire des associations spatiotemporelles latentes, déléguant efficacement la découverte intensive de contexte avant une vérification humaine. Par ailleurs, nous développons une base robuste en utilisant un framework agent modulaire équipé d'outils à granularité fine et d'un système à mémoire double pour la navigation à long terme. Des expériences approfondies démontrent que DISBench présente des défis significatifs pour les modèles de pointe, soulignant la nécessité d'intégrer un raisonnement agentiel dans les systèmes de recherche de nouvelle génération.
English
Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.