ChatPaper.aiChatPaper

Agent-R1: エンドツーエンド強化学習による強力なLLMエージェントの訓練

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

November 18, 2025
著者: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI

要旨

大規模言語モデル(LLM)は、複雑な問題解決のために(ツール使用などを通じて)能動的に環境と対話可能なエージェントの構築に向けた研究が活発化している。強化学習(RL)は、このようなエージェントを訓練する上で大きな可能性を秘めた重要な技術と見なされている。しかし、LLMエージェントへのRLの効果的な応用はまだ初期段階にあり、多大な課題に直面している。現在、この新興分野では、LLMエージェントの文脈に特化したRL手法に関する深い探求が不足しており、同時に、この目的のために設計された柔軟で拡張性の高い訓練フレームワークも乏しい状況である。 本論文は、この分野の発展を促進するため、まずLLMエージェントの強化学習手法を再検討し、マルコフ決定過程(MDP)フレームワークを体系的に拡張することでLLMエージェントの主要構成要素を包括的に定義し、手法を明確化する。次に、多様なタスクシナリオと対話環境に容易に適応可能なように設計された、モジュール式で柔軟、かつユーザーフレンドリーなRLベースLLMエージェント用訓練フレームワーク「Agent-R1」を提案する。Multihop QAベンチマークタスクを用いた実験を実施し、提案手法およびフレームワークの有効性に関する予備的検証を行う。
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.
PDF172December 1, 2025