長期的視野に立ったエージェント型マルチモーダル検索に向けて
Towards Long-horizon Agentic Multimodal Search
April 14, 2026
著者: Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen
cs.AI
要旨
マルチモーダル深層検索エージェントは、テキストと視覚的証拠を反復的に収集することで複雑なタスクを解決する大きな可能性を示している。しかし、長期的なマルチモーダル入力に伴う異種情報の管理と高いトークンコストは、既存手法が文脈爆発や重要な視覚信号の損失に悩まされることが多いため、依然として重大な課題である。この問題に対処するため、我々はファイルベースの視覚表現メカニズムを中核とした新しい長期的マルチモーダル深層検索フレームワーク「LMM-Searcher」を提案する。視覚アセットを外部ファイルシステムにオフロードし、軽量なテキスト識別子(UID)にマッピングすることで、本手法は将来のアクセスのためのマルチモーダル情報を保持しつつ、文脈オーバーヘッドを軽減する。また、エージェントに特注の画像取得ツールを装備し、能動的知覚のための段階的オンデマンド視覚読み込み戦略を可能にする。さらに、複雑なクロスモーダルマルチホップ推論を必要とするクエリを生成するために設計されたデータ合成パイプラインを導入する。このパイプラインを用いて、12Kの高品質軌跡を生成し、Qwen3-VL-Thinking-30A3Bを専門的なマルチモーダル深層検索エージェントにファインチューニングする。4つのベンチマークによる大規模な実験により、本手法が100ターンに及ぶ検索範囲に確実にスケールし、MM-BrowseCompやMMSearch-Plusのような困難な長期的ベンチマークにおいてオープンソースモデルの中で最先端の性能を達成すると同時に、異なる基本モデルにわたる強い一般化能力を示すことを実証した。コードはhttps://github.com/RUCAIBox/LMM-Searcher で公開予定である。
English
Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.