ChatPaper.aiChatPaper

스텝 딥리서치 기술 보고서

Step-DeepResearch Technical Report

December 23, 2025
저자: Chen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
cs.AI

초록

LLM이 자율 에이전트로 전환됨에 따라 딥 리서치(Deep Research)가 핵심 평가 지표로 부상하고 있습니다. 그러나 BrowseComp와 같은 기존 학술 벤치마크는 의도 인식, 장기적 의사 결정, 교차 출처 검증 등 강력한 기술을 요구하는 개방형 리서치의 실제 수요를 충족시키지 못하는 경우가 많습니다. 이를 해결하기 위해 우리는 비용 효율적인 엔드투엔드(end-to-end) 에이전트인 Step-DeepResearch를 소개합니다. 계획 수립과 보고서 작성 능력을 강화하기 위해 원자적 역량 기반 데이터 합성 전략을 제안하며, 이는 에이전트 중간 훈련(agentic mid-training)부터 SFT, RL에 이르는 점진적 훈련 경로와 결합됩니다. 체크리스트 방식 판단 모듈(Checklist-style Judger)로 강화된 이 접근법은 견고성을 크게 향상시킵니다. 나아가 중국어 영역의 평가 격차를 해소하기 위해 현실적인 딥 리서치 시나리오를 위한 ADR-Bench를 구축했습니다. 실험 결과, Step-DeepResearch(32B)는 Scale AI Research Rubrics에서 61.4%의 점수를 기록했습니다. ADR-Bench에서는 비교 가능 모델들을 크게 앞섰으며, OpenAI 및 Gemini DeepResearch와 같은 최첨단 폐쇄형 모델들과도 경쟁력을 보였습니다. 이러한 결과는 정교한 훈련을 통해 중형 모델이 산업을 선도하는 수준의 비용 효율성으로 전문가 수준의 역량을 달성할 수 있음을 입증합니다.
English
As LLMs shift toward autonomous agents, Deep Research has emerged as a pivotal metric. However, existing academic benchmarks like BrowseComp often fail to meet real-world demands for open-ended research, which requires robust skills in intent recognition, long-horizon decision-making, and cross-source verification. To address this, we introduce Step-DeepResearch, a cost-effective, end-to-end agent. We propose a Data Synthesis Strategy Based on Atomic Capabilities to reinforce planning and report writing, combined with a progressive training path from agentic mid-training to SFT and RL. Enhanced by a Checklist-style Judger, this approach significantly improves robustness. Furthermore, to bridge the evaluation gap in the Chinese domain, we establish ADR-Bench for realistic deep research scenarios. Experimental results show that Step-DeepResearch (32B) scores 61.4% on Scale AI Research Rubrics. On ADR-Bench, it significantly outperforms comparable models and rivals SOTA closed-source models like OpenAI and Gemini DeepResearch. These findings prove that refined training enables medium-sized models to achieve expert-level capabilities at industry-leading cost-efficiency.
PDF121December 25, 2025