ChatPaper.aiChatPaper

ステップ・ディープリサーチ技術報告書

Step-DeepResearch Technical Report

December 23, 2025
著者: Chen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
cs.AI

要旨

大規模言語モデルが自律エージェントへと移行する中で、「深層研究(Deep Research)」は重要な指標として台頭してきました。しかし、BrowseCompのような既存の学術ベンチマークは、意図認識、長期的な意思決定、複数情報源の検証といった堅牢なスキルを要する現実世界のオープンエンドな研究要求を満たせないことが多いです。この課題に対処するため、我々はコスト効率に優れたエンドツーエンドのエージェント「Step-DeepResearch」を提案します。計画立案とレポート作成を強化するため、原子能力(Atomic Capabilities)に基づくデータ合成戦略を導入し、エージェント的中間訓練からSFT、RLへと至る段階的訓練パスを組み合わせました。チェックリスト方式の判定器(Checklist-style Judger)による補強により、頑健性が大幅に向上しています。さらに、中国語領域における評価格差を埋めるため、現実的な深層研究シナリオ向けベンチマーク「ADR-Bench」を構築しました。実験結果では、Step-DeepResearch(32B)がScale AI Research Rubricsで61.4%を獲得。ADR-Benchでは同等規模モデルを大きく上回り、OpenAIやGemini DeepResearchといったクローズドソースのSOTAモデルに匹敵する性能を示しました。これらの結果は、洗練された訓練によって中規模モデルが業界トップレベルのコスト効率で専門家レベルの能力を達成できることを実証しています。
English
As LLMs shift toward autonomous agents, Deep Research has emerged as a pivotal metric. However, existing academic benchmarks like BrowseComp often fail to meet real-world demands for open-ended research, which requires robust skills in intent recognition, long-horizon decision-making, and cross-source verification. To address this, we introduce Step-DeepResearch, a cost-effective, end-to-end agent. We propose a Data Synthesis Strategy Based on Atomic Capabilities to reinforce planning and report writing, combined with a progressive training path from agentic mid-training to SFT and RL. Enhanced by a Checklist-style Judger, this approach significantly improves robustness. Furthermore, to bridge the evaluation gap in the Chinese domain, we establish ADR-Bench for realistic deep research scenarios. Experimental results show that Step-DeepResearch (32B) scores 61.4% on Scale AI Research Rubrics. On ADR-Bench, it significantly outperforms comparable models and rivals SOTA closed-source models like OpenAI and Gemini DeepResearch. These findings prove that refined training enables medium-sized models to achieve expert-level capabilities at industry-leading cost-efficiency.
PDF121December 25, 2025