DeepImageSearch: Het benchmarken van multimodale agenten voor contextbewust beeldhergebruik in visuele geschiedenissen

Samenvatting

Bestaande multimodale retrievalsystemen blinken uit in semantische matching, maar nemen impliciet aan dat de relevantie van query en afbeelding in isolatie kan worden gemeten. Dit paradigma miskent de rijke afhankelijkheden die inherent zijn aan realistische visuele stromen, waarbij informatie is verspreid over temporele sequenties in plaats van beperkt tot losse momentopnames. Om deze kloof te overbruggen, introduceren wij DeepImageSearch, een nieuw agent-gebaseerd paradigma dat beeldretrieval herformuleert als een autonome verkenningstaak. Modellen moeten multi-stap redeneren plannen en uitvoeren over ruwe visuele geschiedenissen om doelwitten te lokaliseren op basis van impliciete contextuele aanwijzingen. Wij construeren DISBench, een uitdagende benchmark gebouwd op onderling verbonden visuele gegevens. Om de schaalbaarheidsuitdaging van het creëren van contextafhankelijke queries aan te pakken, stellen wij een mens-model collaboratieve pijplijn voor die vision-language modellen inzet om latente spatiotemporele associaties te ontginnen, waardoor intensieve contextontdekking effectief wordt uitbesteed vóór menselijke verificatie. Verder bouwen wij een robuuste baseline met een modulair agent-framework uitgerust met fijnmazige tools en een dual-memory systeem voor navigatie op lange termijn. Uitgebreide experimenten tonen aan dat DISBench aanzienlijke uitdagingen vormt voor state-of-the-art modellen, wat de noodzaak benadrukt om agent-gebaseerd redeneren in te bouwen in retrieval-systemen van de volgende generatie.

English

Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.

DeepImageSearch: Het benchmarken van multimodale agenten voor contextbewust beeldhergebruik in visuele geschiedenissen

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Samenvatting

Support