ArenaRL: Skalierung von Reinforcement Learning für zieloffene Agenten durch turnierbasierte relative Rangbildung
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
January 10, 2026
papers.authors: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI
papers.abstract
Reinforcement Learning hat die Leistung von LLM-Agenten bei Aufgaben mit überprüfbaren Ergebnissen erheblich verbessert, stößt jedoch nach wie vor an Grenzen bei offenen Agentenaufgaben mit großen Lösungsräumen (z.B. komplexe Reiseplanung). Aufgrund des Fehlens objektiver Ground-Truth für diese Aufgaben stützen sich aktuelle RL-Algorithmen weitgehend auf Belohnungsmodelle, die einzelnen Antworten skalare Scores zuweisen. Wir behaupten, dass eine solche punktuelle Bewertung unter einem inhärenten Diskriminierungszusammenbruch leidet: Das Belohnungsmodell hat Schwierigkeiten, subtile Vorteile zwischen verschiedenen Trajektorien zu unterscheiden, was dazu führt, dass die Scores innerhalb einer Gruppe in einen engen Bereich komprimiert werden. Folglich wird das effektive Belohnungssignal von Rauschen aus dem Belohnungsmodell dominiert, was zu Optimierungsstagnation führt. Um dies zu adressieren, schlagen wir ArenaRL vor, ein Reinforcement-Learning-Paradigma, das von der punktuellen Skalarbewertung zur relativen Rangfolge innerhalb von Gruppen wechselt. ArenaRL führt einen prozessbasierten paarweisen Evaluierungsmechanismus ein, der mehrstufige Bewertungsraster verwendet, um Trajektorien feinkörnige relative Scores zuzuweisen. Zusätzlich konstruieren wir eine interne adversarische Arena und entwickeln ein turnierbasiertes Ranking-Schema, um stabile Vorteilssignale zu erhalten. Empirische Ergebnisse bestätigen, dass das eingebaute gesetzte K.-o.-System eine nahezu äquivalente Genauigkeit bei der Vorteilsschätzung wie vollständige paarweise Vergleiche mit O(N²)-Komplexität erreicht, während es mit nur O(N)-Komplexität arbeitet und somit eine optimale Balance zwischen Effizienz und Präzision schafft. Darüber hinaus adressieren wir den Mangel an vollständigen Benchmark-Zyklen für offene Agenten, indem wir Open-Travel und Open-DeepResearch entwickeln – zwei hochwertige Benchmarks mit einer umfassenden Pipeline, die SFT, RL-Training und multidimensionale Evaluation abdeckt. Umfangreiche Experimente zeigen, dass ArenaRL Standard-RL-Baselines erheblich übertrifft und es LLM-Agenten ermöglicht, robustere Lösungen für komplexe reale Aufgaben zu generieren.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.