DeepImageSearch: 視覚的履歴における文脈認識画像検索のためのマルチモーダルエージェントのベンチマーキング
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories
February 11, 2026
著者: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou
cs.AI
要旨
既存のマルチモーダル検索システムは意味的マッチングに優れるが、クエリと画像の関連性を単体で測定できるという前提を暗黙的に仮定している。このパラダイムは、現実の視覚ストリームに内在する豊かな依存関係を見落としており、実際には情報は単一のスナップショットに閉じず時間的な連続性の中で分散している。この課題を解決するため、我々は画像検索を自律的な探索タスクとして再定義する新しいエージェント型パラダイム「DeepImageSearch」を提案する。本手法では、モデルが生の視覚履歴に対してマルチステップの推論を計画・実行し、文脈的な手がかりに基づいて目標を特定する。さらに、相互接続された視覚データに基づく挑戦的なベンチマーク「DISBench」を構築した。文脈依存クエリ作成の拡張性課題に対処するため、視覚言語モデルを活用して潜在的な時空間的関連性を抽出し、人的検証前に集中的な文脈発見を効率化する人間-モデル協働パイプラインを提案する。さらに、細粒度ツール群と長期的ナビゲーションのための二重メモリシステムを備えたモジュラー型エージェントフレームワークを用いた堅牢なベースラインを構築した。大規模な実験により、DISBenchが最先端モデルにとって重大な課題を提起し、次世代検索システムへのエージェント推論の組み込み必要性が明らかとなった。
English
Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.