ArenaRL: トーナメント方式の相対的評価によるオープンエンドエージェントのための強化学習のスケーリング
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
January 10, 2026
著者: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI
要旨
強化学習は検証可能な結果を伴うタスクにおけるLLMエージェントの性能を大幅に向上させてきたが、解決策の空間が膨大なオープンエンドなエージェントタスク(例:複雑な旅行計画)では依然として苦戦している。これらのタスクには客観的な正解が存在しないため、現在の強化学習アルゴリズムは個々の応答にスカラー値を割り当てる報酬モデルに大きく依存している。我々は、このような一点評価には本質的な「識別崩壊」が生じると主張する:報酬モデルは異なる軌道間の微妙な優位性を区別できず、グループ内のスコアが狭い範囲に圧縮されてしまう。その結果、実効的な報酬信号が報酬モデル由来のノイズに支配され、最適化が停滞する。この問題に対処するため、我々は一点評価からグループ内相対順位付けへと転換する強化学習パラダイムArenaRLを提案する。ArenaRLはプロセス意識型のペアワイズ評価機構を導入し、マルチレベル評価基準を用いて軌道に細粒度な相対スコアを付与する。さらに、グループ内敵対的アリーナを構築し、トーナメント方式のランキング手法を考案して安定した優位性信号を取得する。実験結果により、シード付き単一敗者復活戦方式がO(N^2)の計算量を要する完全ペアワイズ比較と同等の優位性推定精度を達成しつつ、O(N)の計算量のみで動作し、効率性と精度の最適なバランスを実現することが確認された。加えて、オープンエンドエージェント向けの完全循環ベンチマークの不足に対処するため、SFT、強化学習トレーニング、多次元評価を網羅する包括的パイプラインを備えた高品質ベンチマークOpen-TravelとOpen-DeepResearchを構築した。大規模な実験により、ArenaRLが標準的な強化学習ベースラインを大幅に上回り、LLMエージェントが複雑な実世界タスクに対してより堅牢な解決策を生成できることが実証された。
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.