ChatPaper.aiChatPaper

SFR-DeepResearch: К эффективному обучению с подкреплением для автономно рассуждающих одиночных агентов

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

September 8, 2025
Авторы: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI

Аннотация

Оснащение крупных языковых моделей (LLM) сложными, переплетенными способностями к рассуждению и использованию инструментов стало ключевым направлением в исследованиях агентного ИИ, особенно с учетом недавних достижений в моделях, ориентированных на рассуждения («мышление»). Такие способности имеют решающее значение для реализации ряда важных приложений. Одним из таких приложений является глубокое исследование (Deep Research, DR), которое требует обширного поиска и рассуждений на основе множества источников. Наша работа в данной статье сосредоточена на разработке автономных одноагентных моделей для DR, которые минимизируют веб-краулинг и интегрируют инструменты Python. В отличие от мультиагентных систем, где агенты выполняют предопределенные роли и получают указания на каждом шаге статичного рабочего процесса, автономный одноагентный агент динамически определяет следующее действие на основе контекста, без ручного управления. В то время как предыдущие работы предлагали рецепты обучения базовых или настроенных на инструкции LLM, мы сосредоточились на непрерывном обучении с подкреплением (RL) моделей, оптимизированных для рассуждений, чтобы дополнительно улучшить агентные навыки, сохраняя при этом способность к рассуждению. Для достижения этой цели мы предлагаем простой рецепт RL с использованием полностью синтетических данных, который применяем к различным открытым LLM. Наша лучшая модель SFR-DR-20B достигает до 28,7% на бенчмарке Humanity's Last Exam. Кроме того, мы проводим ключевые аналитические эксперименты, чтобы предоставить более глубокое понимание наших методологий.
English
Equipping large language models (LLMs) with complex, interleaved reasoning and tool-use capabilities has become a key focus in agentic AI research, especially with recent advances in reasoning-oriented (``thinking'') models. Such capabilities are key to unlocking a number of important applications. One such application is Deep Research (DR), which requires extensive search and reasoning over many sources. Our work in this paper focuses on the development of native Autonomous Single-Agent models for DR featuring minimal web crawling and Python tool integration. Unlike multi-agent systems, where agents take up pre-defined roles and are told what to do at each step in a static workflow, an autonomous single-agent determines its next action dynamically based on context, without manual directive. While prior work has proposed training recipes for base or instruction-tuned LLMs, we focus on continual reinforcement learning (RL) of reasoning-optimized models to further enhance agentic skills while preserving reasoning ability. Towards this end, we propose a simple RL recipe with entirely synthetic data, which we apply to various open-source LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam benchmark. In addition, we conduct key analysis experiments to provide more insights into our methodologies.
PDF82September 9, 2025