Relatório Técnico do Step-DeepResearch

Resumo

À medida que os LLMs evoluem para agentes autónomos, a Pesquisa Aprofundada emergiu como uma métrica pivotal. No entanto, benchmarks académicos existentes como o BrowseComp frequentemente não correspondem às exigências do mundo real para investigação de natureza aberta, que requer competências robustas em reconhecimento de intenções, tomada de decisão de longo horizonte e verificação cruzada de fontes. Para colmatar esta lacuna, introduzimos o Step-DeepResearch, um agente de custo-eficaz de ponta a ponta. Propomos uma Estratégia de Síntese de Dados Baseada em Capacidades Atómicas para reforçar o planeamento e a redação de relatórios, combinada com um percurso de treino progressivo que vai desde o mid-training agentético até SFT e RL. Reforçada por um Avaliador em formato de Lista de Verificação, esta abordagem melhora significativamente a robustez. Adicionalmente, para colmatar a lacuna de avaliação no domínio chinês, estabelecemos o ADR-Bench para cenários realistas de pesquisa aprofundada. Resultados experimentais mostram que o Step-DeepResearch (32B) atinge 61.4% na Escala de Avaliação de Investigação da Scale AI. No ADR-Bench, supera significativamente modelos comparáveis e rivaliza com modelos SOTA proprietários como o OpenAI e o Gemini DeepResearch. Estes resultados provam que um treino refinado permite que modelos de dimensão média atinjam capacidades de nível especialista com uma relação custo-eficácia líder da indústria.

English

As LLMs shift toward autonomous agents, Deep Research has emerged as a pivotal metric. However, existing academic benchmarks like BrowseComp often fail to meet real-world demands for open-ended research, which requires robust skills in intent recognition, long-horizon decision-making, and cross-source verification. To address this, we introduce Step-DeepResearch, a cost-effective, end-to-end agent. We propose a Data Synthesis Strategy Based on Atomic Capabilities to reinforce planning and report writing, combined with a progressive training path from agentic mid-training to SFT and RL. Enhanced by a Checklist-style Judger, this approach significantly improves robustness. Furthermore, to bridge the evaluation gap in the Chinese domain, we establish ADR-Bench for realistic deep research scenarios. Experimental results show that Step-DeepResearch (32B) scores 61.4% on Scale AI Research Rubrics. On ADR-Bench, it significantly outperforms comparable models and rivals SOTA closed-source models like OpenAI and Gemini DeepResearch. These findings prove that refined training enables medium-sized models to achieve expert-level capabilities at industry-leading cost-efficiency.