SFR-DeepResearch: Auf dem Weg zu effektivem Reinforcement Learning für autonom agierende Einzelagenten
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
papers.authors: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
papers.abstract
Die Ausstattung großer Sprachmodelle (LLMs) mit komplexen, verschachtelten Denk- und Werkzeugnutzungsfähigkeiten ist zu einem zentralen Schwerpunkt in der Forschung zu agentenbasierten KI-Systemen geworden, insbesondere durch die jüngsten Fortschritte bei den auf logisches Denken („Thinking“) ausgerichteten Modellen. Solche Fähigkeiten sind entscheidend, um eine Reihe wichtiger Anwendungen zu ermöglichen. Eine solche Anwendung ist die Tiefenforschung (Deep Research, DR), die umfangreiche Recherchen und logisches Schlussfolgern über viele Quellen hinweg erfordert. Unsere Arbeit in diesem Artikel konzentriert sich auf die Entwicklung nativer autonomer Einzelagenten-Modelle für DR, die minimales Web-Crawling und die Integration von Python-Werkzeugen beinhalten. Im Gegensatz zu Multi-Agenten-Systemen, bei denen Agenten vordefinierte Rollen übernehmen und in einem statischen Workflow Schritt für Schritt Anweisungen erhalten, bestimmt ein autonomer Einzelagent seine nächste Aktion dynamisch basierend auf dem Kontext, ohne manuelle Anweisungen. Während frühere Arbeiten Trainingsmethoden für Basis- oder instruktionsoptimierte LLMs vorgeschlagen haben, konzentrieren wir uns auf kontinuierliches Reinforcement Learning (RL) von auf logisches Denken optimierten Modellen, um agentenbasierte Fähigkeiten weiter zu verbessern, ohne die Denkfähigkeit zu beeinträchtigen. Zu diesem Zweck schlagen wir ein einfaches RL-Verfahren mit vollständig synthetischen Daten vor, das wir auf verschiedene Open-Source-LLMs anwenden. Unsere beste Variante, SFR-DR-20B, erreicht bis zu 28,7 % auf dem Humanity's Last Exam-Benchmark. Darüber hinaus führen wir wichtige Analyseexperimente durch, um weitere Einblicke in unsere Methoden zu liefern.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.