SFR-DeepResearch: Op weg naar effectief reinforcement learning voor autonoom redenerende individuele agents
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
Auteurs: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
Samenvatting
Het uitrusten van grote taalmodellen (LLMs) met complexe, verweven redeneer- en hulpmiddelgebruikscapaciteiten is een belangrijk aandachtspunt geworden in onderzoek naar agent-gebaseerde AI, vooral met recente vooruitgang in redeneringsgerichte (``denkende'') modellen. Dergelijke capaciteiten zijn essentieel voor het ontsluiten van een aantal belangrijke toepassingen. Een van deze toepassingen is Diepgaand Onderzoek (DR), dat uitgebreid zoeken en redeneren over vele bronnen vereist. Ons werk in dit artikel richt zich op de ontwikkeling van native autonome single-agent modellen voor DR met minimale webcrawling en integratie van Python-hulpmiddelen. In tegenstelling tot multi-agent systemen, waar agents vooraf gedefinieerde rollen innemen en bij elke stap in een statische workflow worden verteld wat ze moeten doen, bepaalt een autonome single-agent zijn volgende actie dynamisch op basis van de context, zonder handmatige instructie. Terwijl eerder werk trainingsrecepten heeft voorgesteld voor basis- of instructie-afgestemde LLMs, richten wij ons op continue reinforcement learning (RL) van redeneringsgeoptimaliseerde modellen om agentische vaardigheden verder te verbeteren terwijl het redeneervermogen behouden blijft. Hiertoe stellen we een eenvoudig RL-recept voor met volledig synthetische data, dat we toepassen op verschillende open-source LLMs. Onze beste variant, SFR-DR-20B, behaalt tot 28,7% op de Humanity's Last Exam-benchmark. Daarnaast voeren we belangrijke analyse-experimenten uit om meer inzicht te bieden in onze methodologieën.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.