視覚ネイティブなマルチモーダル深層検索エージェントのためのオンポリシーデータ進化に向けて
Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents
May 11, 2026
著者: Shijue Huang, Hangyu Guo, Chenxin Li, Junting Lu, Xinyu Geng, Zhaochen Su, Zhenyu Li, Shuang Chen, Hongru Wang, Yi R. Fung
cs.AI
要旨
マルチモーダル深層検索では、エージェントが進化するテキストおよび視覚的コンテキストに対して、検索、ツール使用、視覚的推論を連鎖させることでオープンワールド問題を解決する必要がある。現在のシステムを制限する2つのボトルネックがある。第一に、既存のツール使用ハーネスは、検索、ブラウジング、または変換によって返された画像を一時的な出力として扱うため、中間的な視覚的エビデンスを後のツールで再利用できない。第二に、訓練データは通常、固定されたキュレーションレシピによって構築され、対象エージェントの進化する能力を追跡できない。これらの課題に対処するため、まず画像バンク参照プロトコルを中心とした視覚ネイティブなエージェントハーネスを導入する。これはツールが返すすべての画像をアドレス可能な参照として登録し、中間的な視覚的エビデンスを後のツールで再利用可能にする。このハーネスの上で、オン方策データ進化(ODE)は、訓練中の方策のロールアウトからラウンドを跨いで自身を洗練する閉ループデータ生成器を実行する。このラウンドごとの洗練により、各ラウンドのデータは現在の方策がまだ学習する必要があるものをターゲットにする。同じフレームワークは、多様な教師ありファインチューニングデータと方策認識型強化学習データキュレーションの両方をサポートし、対象エージェントの全訓練ライフサイクルをカバーする。8つのマルチモーダル深層検索ベンチマークにおいて、ODEはQwen3-VL-8Bエージェントを平均24.9%から39.0%に向上させ、標準的なエージェントワークフロー設定(37.9%)でGemini-2.5 Proを上回った。30Bでは、ODEは平均スコアを30.6%から41.5%に引き上げた。さらなる分析により、画像バンク再利用の有効性が検証され、特に反復的な視覚的洗練を必要とする複雑なタスクにおいて有効である一方、ロールアウトフィードバック進化は静的合成よりもより根拠のあるSFTトレースとより方策にマッチしたRLタスクを生み出すことが示された。
English
Multimodal deep search requires an agent to solve open-world problems by chaining search, tool use, and visual reasoning over evolving textual and visual context. Two bottlenecks limit current systems. First, existing tool-use harnesses treat images returned by search, browsing, or transformation as transient outputs, so intermediate visual evidence cannot be re-consumed by later tools. Second, training data is usually built by fixed curation recipes that cannot track the target agent's evolving capability. To address these challenges, we first introduce a visual-native agent harness centered on an image bank reference protocol, which registers every tool-returned image as an addressable reference and makes intermediate visual evidence reusable by later tools. On top of this harness, On-policy Data Evolution (ODE) runs a closed-loop data generator that refines itself across rounds from rollouts of the policy being trained. This per-round refinement makes each round's data target what the current policy still needs to learn. The same framework supports both diverse supervised fine-tuning data and policy-aware reinforcement learning data curation, covering the full training lifecycle of the target agent. Across 8 multimodal deep search benchmarks, ODE improves the Qwen3-VL-8B agent from 24.9% to 39.0% on average, surpassing Gemini-2.5 Pro in standard agent-workflow setting (37.9%). At 30B, ODE raises the average score from 30.6% to 41.5%. Further analyses validate the effectiveness of image-bank reuse, especially on complex tasks requiring iterative visual refinement, while rollout-feedback evolution yields more grounded SFT traces and better policy-matched RL tasks than static synthesis.