ChatPaper.aiChatPaper

Агент-R1: Обучение мощных агентов на основе больших языковых моделей с помощью сквозного обучения с подкреплением

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

November 18, 2025
Авторы: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI

Аннотация

Крупные языковые модели (LLM) все активнее исследуются для создания агентов, способных к активному взаимодействию со средой (например, посредством использования инструментов) для решения сложных задач. Обучение с подкреплением (RL) считается ключевой технологией, обладающей значительным потенциалом для тренировки таких агентов; однако эффективное применение RL к агентам на основе LLM все еще находится на начальной стадии и сталкивается со значительными трудностями. В настоящее время в этой зарождающейся области отсутствуют глубокие исследования методов RL, специально адаптированных для контекста агентов LLM, наряду с дефицитом гибких и легко расширяемых учебных фреймворков, предназначенных для этих целей. Для содействия развитию данной области в данной статье сначала пересматриваются и уточняются методологии обучения с подкреплением для агентов LLM путем систематического расширения框架 марковских процессов принятия решений (MDP) для всестороннего определения ключевых компонентов агента LLM. Во-вторых, мы представляем Agent-R1 — модульный, гибкий и удобный фреймворк для обучения агентов LLM на основе RL, разработанный для простой адаптации к различным сценариям задач и интерактивным средам. Мы провели эксперименты на бенчмарках задач Multihop QA, предоставив первоначальное подтверждение эффективности наших предложенных методов и фреймворка.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.
PDF172December 1, 2025