SFR-DeepResearch: Hacia un Aprendizaje por Refuerzo Efectivo para Agentes Únicos con Razonamiento Autónomo
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
Autores: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
Resumen
Dotar a los modelos de lenguaje de gran escala (LLMs) con capacidades complejas de razonamiento intercalado y uso de herramientas se ha convertido en un enfoque clave en la investigación de IA agentiva, especialmente con los avances recientes en modelos orientados al razonamiento (``pensantes''). Estas capacidades son fundamentales para desbloquear una serie de aplicaciones importantes. Una de estas aplicaciones es la Investigación Profunda (Deep Research, DR), que requiere una búsqueda extensa y razonamiento sobre múltiples fuentes. Nuestro trabajo en este artículo se centra en el desarrollo de modelos autónomos de agente único nativos para DR, que incluyen un mínimo de rastreo web e integración de herramientas Python. A diferencia de los sistemas multiagente, donde los agentes asumen roles predefinidos y se les indica qué hacer en cada paso de un flujo de trabajo estático, un agente único autónomo determina su siguiente acción de manera dinámica basándose en el contexto, sin una directiva manual. Mientras que trabajos previos han propuesto recetas de entrenamiento para LLMs base o ajustados por instrucciones, nosotros nos enfocamos en el aprendizaje por refuerzo continuo (RL) de modelos optimizados para el razonamiento, con el fin de mejorar aún más las habilidades agentivas mientras se preserva la capacidad de razonamiento. Con este objetivo, proponemos una receta simple de RL con datos completamente sintéticos, que aplicamos a varios LLMs de código abierto. Nuestra mejor variante, SFR-DR-20B, alcanza hasta un 28.7% en el benchmark Humanity's Last Exam. Además, realizamos experimentos clave de análisis para proporcionar más información sobre nuestras metodologías.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.