DeepImageSearch: Benchmarking multimodaler Agenten für kontextbewusste Bildersuche in visuellen Verläufen
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
February 11, 2026
papers.authors: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou
cs.AI
papers.abstract
Bestehende multimodale Retrieval-Systeme sind zwar hervorragend im semantischen Abgleich, gehen jedoch implizit davon aus, dass die Relevanz zwischen Anfrage und Bild isoliert bewertet werden kann. Dieses Paradigma übersieht die reichhaltigen Abhängigkeiten, die in realistischen visuellen Datenströmen inhärent vorhanden sind, wo Informationen über zeitliche Sequenzen verteilt sind und nicht auf einzelne Momentaufnahmen beschränkt werden. Um diese Lücke zu schließen, stellen wir DeepImageSearch vor, ein neuartiges, agentenbasiertes Paradigma, das Bildersuche als autonome Erkundungsaufgabe neu formuliert. Modelle müssen mehrstufige Reasoning-Prozesse über rohe visuelle Verläufe planen und durchführen, um Ziele anhand impliziter kontextueller Hinweise zu lokalisieren. Wir konstruieren DISBench, einen anspruchsvollen Benchmark, der auf vernetzten visuellen Daten basiert. Um die Skalierbarkeitsherausforderung bei der Erstellung kontextabhängiger Abfragen zu bewältigen, schlagen wir eine Mensch-Modell-Kollaborationspipeline vor, die Vision-Language-Modelle einsetzt, um latente raumzeitliche Assoziationen zu extrahieren und so die aufwändige Kontexterkundung vor der menschlichen Verifikation zu entlasten. Darüber hinaus entwickeln wir eine robuste Baseline mit einem modularen Agenten-Framework, das mit feinkörnigen Werkzeugen und einem dualen Gedächtnissystem für langfristige Navigation ausgestattet ist. Umfangreiche Experimente zeigen, dass DISBench erhebliche Herausforderungen für state-of-the-art Modelle darstellt und die Notwendigkeit unterstreicht, agentenbasiertes Reasoning in Retrieval-Systeme der nächsten Generation zu integrieren.
English
Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.