ARLArena:安定したエージェント強化学習のための統合フレームワーク
ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
February 25, 2026
著者: Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang
cs.AI
要旨
エージェンシック強化学習(ARL)は、複雑な多段階インタラクティブタスクを解決するエージェントを訓練する有望なパラダイムとして急速に注目を集めている。初期の成果は期待できるものの、ARLは依然として非常に不安定であり、訓練の崩壊を招くことが多い。この不安定性は、大規模環境や長いインタラクション時間へのスケーラビリティを制限し、アルゴリズム設計選択の体系的な探求を妨げている。本論文ではまず、制御された再現可能な環境で訓練の安定性を検証する、安定した訓練レシピおよび体系的分析フレームワークであるARLArenaを提案する。ARLArenaはまず、クリーンで標準化されたテストベッドを構築する。次に、方策勾配を4つの核心的な設計次元に分解し、各次元の性能と安定性を評価する。この細粒度分析を通じて、ARLに対する統一的な視点を抽出し、ARLの不安定性の主要因を緩和するように設計された安定したエージェンシック方策最適化法SAMPOを提案する。実験により、SAMPOは多様なエージェンシックタスクにおいて一貫して安定した訓練と高い性能を達成することが示された。全体として、本研究はARLに対する統一的な方策勾配の視点を提供し、安定した再現可能なLLMベースのエージェント訓練パイプラインを構築するための実践的な指針を提供する。
English
Agentic reinforcement learning (ARL) has rapidly gained attention as a promising paradigm for training agents to solve complex, multi-step interactive tasks. Despite encouraging early results, ARL remains highly unstable, often leading to training collapse. This instability limits scalability to larger environments and longer interaction horizons, and constrains systematic exploration of algorithmic design choices. In this paper, we first propose ARLArena, a stable training recipe and systematic analysis framework that examines training stability in a controlled and reproducible setting. ARLArena first constructs a clean and standardized testbed. Then, we decompose policy gradient into four core design dimensions and assess the performance and stability of each dimension. Through this fine-grained analysis, we distill a unified perspective on ARL and propose SAMPO, a stable agentic policy optimization method designed to mitigate the dominant sources of instability in ARL. Empirically, SAMPO achieves consistently stable training and strong performance across diverse agentic tasks. Overall, this study provides a unifying policy gradient perspective for ARL and offers practical guidance for building stable and reproducible LLM-based agent training pipelines.