SFR-DeepResearch : Vers un apprentissage par renforcement efficace pour des agents uniques à raisonnement autonome
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
papers.authors: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
papers.abstract
Doterr les grands modèles de langage (LLMs) de capacités complexes de raisonnement entrelacé et d'utilisation d'outils est devenu un axe clé de la recherche en IA agentique, notamment avec les récents progrès des modèles orientés raisonnement (« pensants »). Ces capacités sont essentielles pour débloquer un certain nombre d'applications importantes. L'une de ces applications est la Recherche Approfondie (Deep Research, DR), qui nécessite une recherche extensive et un raisonnement sur de nombreuses sources. Notre travail dans cet article se concentre sur le développement de modèles autonomes à agent unique natifs pour la DR, intégrant un minimum de crawling web et d'outils Python. Contrairement aux systèmes multi-agents, où les agents assument des rôles prédéfinis et reçoivent des instructions à chaque étape d'un workflow statique, un agent unique autonome détermine dynamiquement sa prochaine action en fonction du contexte, sans directive manuelle. Alors que les travaux précédents ont proposé des recettes d'entraînement pour des LLMs de base ou ajustés par instruction, nous nous concentrons sur l'apprentissage par renforcement continu (RL) de modèles optimisés pour le raisonnement afin d'améliorer davantage les compétences agentiques tout en préservant la capacité de raisonnement. À cette fin, nous proposons une recette RL simple utilisant entièrement des données synthétiques, que nous appliquons à divers LLMs open-source. Notre meilleure variante, SFR-DR-20B, atteint jusqu'à 28,7 % sur le benchmark Humanity's Last Exam. De plus, nous menons des expériences d'analyse clés pour fournir des insights supplémentaires sur nos méthodologies.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.