ChatPaper.aiChatPaper

Rapporto Tecnico Step-DeepResearch

Step-DeepResearch Technical Report

December 23, 2025
Autori: Chen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
cs.AI

Abstract

Man mano che i LLM evolvono verso agenti autonomi, la Ricerca Approfondita (Deep Research) è emersa come una metrica fondamentale. Tuttavia, i benchmark accademici esistenti come BrowseComp spesso non soddisfano le richieste del mondo reale per la ricerca open-ended, che richiede solide competenze nel riconoscimento dell'intento, nella pianificazione a lungo termine e nella verifica incrociata tra fonti. Per affrontare questa lacuna, introduciamo Step-DeepResearch, un agente end-to-end economicamente efficiente. Proponiamo una Strategia di Sintesi dei Dati Basata su Capacità Atomiche per rafforzare la pianificazione e la stesura di report, combinata con un percorso di addestramento progressivo che va dal mid-training agentico alla SFT e alla RL. Potenziato da un Giudice in stile Checklist, questo approccio migliora significativamente la robustezza. Inoltre, per colmare il divario valutativo nel dominio cinese, istituiamo ADR-Bench per scenari realistici di ricerca approfondita. I risultati sperimentali mostrano che Step-DeepResearch (32B) ottiene un punteggio del 61.4% sulle Scale AI Research Rubrics. Su ADR-Bench, supera significativamente modelli comparabili e rivaleggia con modelli SOTA closed-source come OpenAI e Gemini DeepResearch. Questi risultati dimostrano che un addestramento raffinato consente a modelli di medie dimensioni di raggiungere capacità di livello esperto con un'efficienza di costo all'avanguardia nel settore.
English
As LLMs shift toward autonomous agents, Deep Research has emerged as a pivotal metric. However, existing academic benchmarks like BrowseComp often fail to meet real-world demands for open-ended research, which requires robust skills in intent recognition, long-horizon decision-making, and cross-source verification. To address this, we introduce Step-DeepResearch, a cost-effective, end-to-end agent. We propose a Data Synthesis Strategy Based on Atomic Capabilities to reinforce planning and report writing, combined with a progressive training path from agentic mid-training to SFT and RL. Enhanced by a Checklist-style Judger, this approach significantly improves robustness. Furthermore, to bridge the evaluation gap in the Chinese domain, we establish ADR-Bench for realistic deep research scenarios. Experimental results show that Step-DeepResearch (32B) scores 61.4% on Scale AI Research Rubrics. On ADR-Bench, it significantly outperforms comparable models and rivals SOTA closed-source models like OpenAI and Gemini DeepResearch. These findings prove that refined training enables medium-sized models to achieve expert-level capabilities at industry-leading cost-efficiency.
PDF866February 8, 2026