SFR-DeepResearch: Rumando ao Aprendizado por Reforço Eficiente para Agentes Únicos com Raciocínio Autônomo
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
Autores: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
Resumo
Equipar modelos de linguagem de grande escala (LLMs) com capacidades complexas e intercaladas de raciocínio e uso de ferramentas tornou-se um foco central na pesquisa de IA agentiva, especialmente com os avanços recentes em modelos orientados para raciocínio (``pensamento''). Tais capacidades são fundamentais para desbloquear uma série de aplicações importantes. Uma dessas aplicações é a Pesquisa Profunda (Deep Research - DR), que requer busca extensiva e raciocínio sobre diversas fontes. Nosso trabalho neste artigo concentra-se no desenvolvimento de modelos Autônomos de Agente Único nativos para DR, caracterizados por rastreamento mínimo na web e integração de ferramentas Python. Diferente de sistemas multiagentes, onde os agentes assumem papéis pré-definidos e são instruídos sobre o que fazer em cada etapa de um fluxo de trabalho estático, um agente único autônomo determina sua próxima ação dinamicamente com base no contexto, sem diretivas manuais. Enquanto trabalhos anteriores propuseram receitas de treinamento para LLMs base ou ajustados por instrução, nós nos concentramos no aprendizado por reforço contínuo (RL) de modelos otimizados para raciocínio, a fim de aprimorar ainda mais as habilidades agentivas enquanto preservamos a capacidade de raciocínio. Para isso, propomos uma receita simples de RL com dados inteiramente sintéticos, que aplicamos a vários LLMs de código aberto. Nossa melhor variante, SFR-DR-20B, alcança até 28,7% no benchmark Humanity's Last Exam. Além disso, conduzimos experimentos de análise chave para fornecer mais insights sobre nossas metodologias.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.