Informe Técnico de Step-DeepResearch
Step-DeepResearch Technical Report
December 23, 2025
Autores: Chen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu
cs.AI
Resumen
A medida que los LLM evolucionan hacia agentes autónomos, la Investigación Profunda ha emergido como una métrica pivotal. Sin embargo, benchmarks académicos existentes como BrowseComp a menudo no satisfacen las demandas del mundo real para la investigación de carácter abierto, la cual requiere habilidades robustas en reconocimiento de intenciones, toma de decisiones de largo alcance y verificación cruzada de fuentes. Para abordar esto, presentamos Step-DeepResearch, un agente costo-eficiente de extremo a extremo. Proponemos una Estrategia de Síntesis de Datos Basada en Capacidades Atómicas para reforzar la planificación y redacción de informes, combinada con una ruta de entrenamiento progresiva que va desde el entrenamiento intermedio agencial hasta SFT y RL. Potenciada por un Evaluador de estilo Lista de Verificación, este enfoque mejora significativamente la robustez. Además, para salvar la brecha evaluativa en el dominio chino, establecemos ADR-Bench para escenarios realistas de investigación profunda. Los resultados experimentales muestran que Step-DeepResearch (32B) obtiene un 61.4% en las Escalas de Evaluación de Investigación de Scale AI. En ADR-Bench, supera significativamente a modelos comparables y rivaliza con modelos SOTA de código cerrado como OpenAI y Gemini DeepResearch. Estos hallazgos demuestran que un entrenamiento refinado permite a los modelos de tamaño medio alcanzar capacidades de nivel experto con una relación costo-eficiencia líder en la industria.
English
As LLMs shift toward autonomous agents, Deep Research has emerged as a pivotal metric. However, existing academic benchmarks like BrowseComp often fail to meet real-world demands for open-ended research, which requires robust skills in intent recognition, long-horizon decision-making, and cross-source verification. To address this, we introduce Step-DeepResearch, a cost-effective, end-to-end agent. We propose a Data Synthesis Strategy Based on Atomic Capabilities to reinforce planning and report writing, combined with a progressive training path from agentic mid-training to SFT and RL. Enhanced by a Checklist-style Judger, this approach significantly improves robustness. Furthermore, to bridge the evaluation gap in the Chinese domain, we establish ADR-Bench for realistic deep research scenarios. Experimental results show that Step-DeepResearch (32B) scores 61.4% on Scale AI Research Rubrics. On ADR-Bench, it significantly outperforms comparable models and rivals SOTA closed-source models like OpenAI and Gemini DeepResearch. These findings prove that refined training enables medium-sized models to achieve expert-level capabilities at industry-leading cost-efficiency.