Agent-R1: 종단 간 강화 학습을 통한 강력한 LLM 에이전트 훈련
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
November 18, 2025
저자: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen
cs.AI
초록
대규모 언어 모델(LLM)은 복잡한 문제 해결을 위해 능동적인 환경 상호작용(예: 도구 활용)이 가능한 에이전트 구축을 위해 점차 더 많이 연구되고 있다. 강화 학습(RL)은 이러한 에이전트 훈련에 상당한 잠재력을 지닌 핵심 기술로 간주되지만, LLM 에이전트에 대한 RL의 효과적 적용은 아직 초기 단계이며 상당한 과제에 직면해 있다. 현재 이 신생 분야는 LLM 에이전트 맥락에 특화된 RL 접근법에 대한 심층적인 탐구가 부족할 뿐만 아니라, 이를 위해 설계된 유연하고 확장이 쉬운 훈련 프레임워크도 드물다. 본 논문은 이 분야의 발전을 돕고자, 먼저 마르코프 결정 과정(MDP) 프레임워크를 체계적으로 확장하여 LLM 에이전트의 핵심 구성 요소를 포괄적으로 정의함으로써 LLM 에이전트를 위한 강화 학습 방법론을 재검토하고 명확히 한다. 둘째, 다양한 작업 시나리오와 상호작용 환경에서 직관적으로 적용할 수 있도록 설계된, RL 기반 LLM 에이전트를 위한 모듈식이고 유연하며 사용자 친화적인 훈련 프레임워크인 Agent-R1을 소개한다. Multihop QA 벤치마크 작업에 대한 실험을 수행하여 제안한 방법론과 프레임워크의 효과에 대한 기초적인 검증을 제공한다.
English
Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.