DeepImageSearch: Avaliação Comparativa de Agentes Multimodais para Recuperação de Imagens com Consciência Contextual em Históricos Visuais
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
February 11, 2026
Autores: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou
cs.AI
Resumo
Os sistemas de recuperação multimodal existentes destacam-se na correspondência semântica, mas assumem implicitamente que a relevância entre consulta e imagem pode ser medida isoladamente. Este paradigma ignora as ricas dependências inerentes a fluxos visuais realistas, onde a informação está distribuída por sequências temporais em vez de confinada a instantâneos individuais. Para colmatar esta lacuna, introduzimos o DeepImageSearch, um novo paradigma agentivo que reformula a recuperação de imagens como uma tarefa de exploração autónoma. Os modelos devem planear e executar raciocínios de múltiplos passos sobre históricos visuais brutos para localizar objetivos com base em pistas contextuais implícitas. Construímos o DISBench, um benchmark desafiador baseado em dados visuais interligados. Para enfrentar o desafio de escalabilidade na criação de consultas dependentes do contexto, propomos um pipeline colaborativo humano-modelo que emprega modelos de visão e linguagem para minerar associações espaço-temporais latentes, transferindo eficazmente a descoberta intensiva de contexto para antes da verificação humana. Adicionalmente, desenvolvemos uma baseline robusta usando uma arquitetura agentiva modular equipada com ferramentas de granularidade fina e um sistema de memória dual para navegação de longo horizonte. Experimentos extensivos demonstram que o DISBench representa um desafio significativo para os modelos state-of-the-art, salientando a necessidade de incorporar raciocínio agentivo nos sistemas de recuperação de próxima geração.
English
Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.