DeepImageSearch: Valutazione di Agenti Multimodali per il Recupero di Immagini Sensibile al Contesto in Cronologie Visive

Abstract

I sistemi di recupero multimodali esistenti eccellono nell'abbianamento semantico ma assumono implicitamente che la rilevanza query-immagine possa essere misurata in isolamento. Questo paradigma trascina le ricche dipendenze intrinseche nei flussi visivi realistici, dove le informazioni sono distribuite su sequenze temporali piuttosto che confinate a singoli fotogrammi. Per colmare questa lacuna, introduciamo DeepImageSearch, un nuovo paradigma agentico che riformula il recupero di immagini come un compito di esplorazione autonoma. I modelli devono pianificare ed eseguire ragionamenti a più passaggi sulle cronologie visive grezze per localizzare i target sulla base di indizi contestuali impliciti. Costruiamo DISBench, un benchmark impegnativo basato su dati visivi interconnessi. Per affrontare la sfida della scalabilità nella creazione di query dipendenti dal contesto, proponiamo una pipeline collaborativa uomo-modello che impiega modelli visione-linguaggio per estrarre associazioni spaziotemporali latenti, delegando efficacemente l'intensa scoperta del contesto prima della verifica umana. Inoltre, costruiamo una baseline robusta utilizzando un framework agentico modulare dotato di strumenti a grana fine e un sistema a doppia memoria per la navigazione a lungo termine. Esperimenti estesi dimostrano che DISBench pone sfide significative ai modelli all'avanguardia, evidenziando la necessità di incorporare il ragionamento agentico nei sistemi di recupero di prossima generazione.

English

Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.

DeepImageSearch: Valutazione di Agenti Multimodali per il Recupero di Immagini Sensibile al Contesto in Cronologie Visive

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Abstract

Support