OpenSeeker-v2: 情報量豊富で高難度の軌跡による検索エージェントの限界への挑戦
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
May 5, 2026
著者: Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang, Xinyu Zhu, Yuzhu Cai, Siheng Chen
cs.AI
要旨
深層検索能力はフロンティア大規模言語モデル(LLM)エージェントにとって不可欠な能力となっているが、その開発は依然として産業界の巨人企業に支配されている。典型的な産業界のレシピは、事前学習、継続的事前学習(CPT)、教師ありファインチューニング(SFT)、強化学習(RL)にまたがる高度にリソース集約的なパイプラインを伴う。本報告では、情報量が豊富で難易度の高い軌跡データを活用すれば、単純なSFTアプローチがフロンティア検索エージェントの訓練において驚くほど強力になり得ることを示す。3つの簡潔なデータ合成改良(知識グラフ規模の拡大による探索の高度化、ツールセット規模の拡大による機能性の拡充、厳格な低ステップフィルタリング)を導入することで、より強力なベースラインを確立した。わずか10.6kデータポイントで訓練された我々のOpenSeeker-v2は、4つのベンチマーク(ReActパラダイムを採用した30B規模エージェント)において最先端の性能を達成した:BrowseCompで46.0%、BrowseComp-ZHで58.1%、Humanity's Last Examで34.6%、xbenchで78.0%を記録し、重厚なCPT+SFT+RLパイプラインで訓練されたTongyi DeepResearchの成績(それぞれ43.4%、46.7%、32.9%、75.0%)を凌駕した。特筆すべきは、OpenSeeker-v2が、そのモデル規模とパラダイムにおいて、純粋な学術チームがSFTのみを用いて開発した初の最先端検索エージェントである点である。我々はOpenSeeker-v2のモデル重みをオープンソース化し、この簡潔かつ効果的な知見を共有することで、フロンティア検索エージェント研究のコミュニティへのアクセス性向上に貢献できることを嬉しく思う。
English
Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.