ChatPaper.aiChatPaper

ARLArena: 안정적인 에이전트 강화 학습을 위한 통합 프레임워크

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

February 25, 2026
저자: Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang
cs.AI

초록

에이전트 강화 학습(ARL)은 복잡한 다단계 상호작용 과제 해결을 위해 에이전트를 훈련시키는 유망한 패러다임으로 빠르게 주목받고 있습니다. 초기 연구 결과는 고무적이지만, ARL은 여전히 매우 불안정하여 훈련 붕괴로 이어지는 경우가 많습니다. 이러한 불안정성은 더 큰 환경과 더 긴 상호작용 범위로의 확장성을 제한하며, 알고리즘 설계 선택에 대한 체계적인 탐구를 제약합니다. 본 논문에서는 먼저 통제되고 재현 가능한 환경에서 훈련 안정성을 검토하는 안정적인 훈련 방법론 및 체계적 분석 프레임워크인 ARLArena를 제안합니다. ARLArena는 먼저 깔끔하고 표준화된 테스트베드를 구축합니다. 그런 다음 정책 경사를 네 가지 핵심 설계 차원으로 분해하고 각 차원의 성능과 안정성을 평가합니다. 이러한 세분화된 분석을 통해 ARL에 대한 통합적 관점을 도출하고, ARL의 주요 불안정성 원인을 완화하도록 설계된 안정적인 에이전트 정책 최적화 방법인 SAMPO를 제안합니다. 실험적으로 SAMPO는 다양한 에이전트 과제에서 일관되게 안정적인 훈련과 높은 성능을 달성합니다. 전반적으로 본 연구는 ARL을 위한 통합적인 정책 경사 관점을 제공하고, 안정적이고 재현 가능한 LLM 기반 에이전트 훈련 파이프라인 구축을 위한 실용적인 지침을 제시합니다.
English
Agentic reinforcement learning (ARL) has rapidly gained attention as a promising paradigm for training agents to solve complex, multi-step interactive tasks. Despite encouraging early results, ARL remains highly unstable, often leading to training collapse. This instability limits scalability to larger environments and longer interaction horizons, and constrains systematic exploration of algorithmic design choices. In this paper, we first propose ARLArena, a stable training recipe and systematic analysis framework that examines training stability in a controlled and reproducible setting. ARLArena first constructs a clean and standardized testbed. Then, we decompose policy gradient into four core design dimensions and assess the performance and stability of each dimension. Through this fine-grained analysis, we distill a unified perspective on ARL and propose SAMPO, a stable agentic policy optimization method designed to mitigate the dominant sources of instability in ARL. Empirically, SAMPO achieves consistently stable training and strong performance across diverse agentic tasks. Overall, this study provides a unifying policy gradient perspective for ARL and offers practical guidance for building stable and reproducible LLM-based agent training pipelines.
PDF202February 27, 2026