ChatPaper.aiChatPaper

OpenSearch-VL:フロンティアマルチモーダル検索エージェントのためのオープンレシピ

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

May 6, 2026
著者: Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue, Shenghua Gao, Tianyu Pang
cs.AI

要旨

深層検索は、フロンティアのマルチモーダルエージェントにおいて重要な機能となり、モデルが能動的検索、証拠検証、多段階推論を通じて複雑な質問を解決することを可能にしている。急速な進展にもかかわらず、トップクラスのマルチモーダル検索エージェントは再現が困難な状況が続いており、その主な要因は、高品質な訓練データの公開不足、透過的な軌跡合成パイプラインの欠如、あるいは詳細な訓練レシピの不在にある。この課題に対処するため、我々はエージェント強化学習を用いてフロンティアのマルチモーダル深層検索エージェントを訓練する完全オープンソースの手法「OpenSearch-VL」を提案する。まず、Wikipedia経路サンプリング、ファジー実体書き換え、ソースアンカーの視覚的接地を組み合わせた高品質訓練データ構築の専用パイプラインを設計し、ショートカット学習と一段階検索崩壊を共同で軽減する。このパイプラインに基づき、SFT用のSearchVL-SFT-36kとRL用のSearchVL-RL-8kという2つの訓練データセットを構築した。さらに、テキスト検索、画像検索、OCR、切り抜き、鮮明化、超解像、透視補正を統合する多様なツール環境を設計し、エージェントが能動的知覚と外部知識獲得を組み合わせることを可能にする。最後に、連鎖的ツール失敗を処理する多ターン致命的事象感知GRPO訓練アルゴリズムを提案し、失敗後トークンをマスキングすると共に、一方向advantageクランプによる失敗前の有用な推論を保持する。このレシピに基づくOpenSearch-VLは、7つのベンチマークで平均10ポイント以上の大幅な性能向上を示し、いくつかのタスクでは専有の商業モデルに匹敵する結果を達成する。我々はマルチモーダル深層検索エージェントのオープン研究を支援するため、全てのデータ、コード、モデルを公開する予定である。
English
Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.
PDF801May 8, 2026