DeepImageSearch: 시각적 기록 내 상황 인식 이미지 검색을 위한 멀티모달 에이전트 벤치마킹
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
February 11, 2026
저자: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou
cs.AI
초록
기존의 다중모달 검색 시스템은 의미적 매칭에서는 뛰어나지만, 질의-이미지 관련성을 단독으로 측정할 수 있다는 점을 암묵적으로 가정합니다. 이러한 패러다임은 정보가 단일 스냅샷에 국한되지 않고 시간적 연속성에 분산되어 있는 현실적 시각 스트림 내재의 풍부한 의존 관계를 간과합니다. 이러한 격차를 해소하기 위해 본 연구에서는 이미지 검색을 자율적 탐색 과제로 재정의하는 새로운 에이전트 패러다임인 DeepImageSearch를 소개합니다. 모델은 암묵적 맥락 단서를 바탕으로 대상을 찾기 위해 원시 시각 이력에 대한 다단계 추론을 계획하고 수행해야 합니다. 우리는 상호 연결된 시각 데이터를 기반으로 한 도전적인 벤치마크인 DISBench를 구축했습니다. 맥락 의존적 질의 생성의 확장성 문제를 해결하기 위해, 우리는 시각-언어 모델을 활용하여 잠재적 시공간 연관성을 추출하고 인간 검증 전에 집중적인 맥락 발견 작업을 효과적으로 분담하는 인간-모델 협력 파이프라인을 제안합니다. 또한, 정교한 도구와 장기적 탐색을 위한 이중 메모리 시스템을 갖춘 모듈형 에이전트 프레임워크를 사용하여 강력한 베이스라인을 구축했습니다. 광범위한 실험을 통해 DISBench가 최첨단 모델들에게 상당한 도전 과제를 제시하며, 차세대 검색 시스템에 에이전트 추론을 통합할 필요성이 있음을 입증했습니다.
English
Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.