ArenaRL: Schaalvergroting van RL voor Open-Einde Agenten via Toernooi-gebaseerde Relatieve Rangschikking
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
January 10, 2026
Auteurs: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI
Samenvatting
Versterkend leren heeft de prestaties van LLM-agenten aanzienlijk verbeterd bij taken met verifieerbare uitkomsten, maar worstelt nog steeds met open-einde agenttaken met uitgebreide oplossingsruimten (bijvoorbeeld complexe reisplanning). Door het ontbreken van een objectieve grondwaarheid voor deze taken, zijn huidige RL-algoritmen grotendeels afhankelijk van beloningsmodellen die individuele antwoorden voorzien van een scalaire score. Wij beweren dat dergelijke puntsgewijze scoring lijdt onder een inherente discriminatie-implosie: het beloningsmodel heeft moeite met het onderscheiden van subtiele voordelen tussen verschillende trajecten, waardoor scores binnen een groep worden samengedrukt in een nauw bereik. Hierdoor wordt het effectieve beloningssignaal gedomineerd door ruis van het beloningsmodel, wat leidt tot optimalisatiestagnatie. Om dit aan te pakken, stellen wij ArenaRL voor, een versterkend leerparadigma dat verschuift van puntsgewijze scalaire scoring naar relatieve rangschikking binnen groepen. ArenaRL introduceert een procesbewust paarsgewijs evaluatiemechanisme dat meerlagige rubrieken gebruikt om fijnmazige relatieve scores aan trajecten toe te kennen. Daarnaast construeren wij een adversariaal arena-systeem binnen groepen en ontwikkelen wij een op toernooien gebaseerd rangschikkingsschema om stabiele voordelsignalen te verkrijgen. Empirische resultaten bevestigen dat het gebouwde seeded single-elimination-schema een bijna equivalente nauwkeurigheid van voordelschatting bereikt als volledige paarsgewijze vergelijkingen met O(N²)-complexiteit, terwijl het opereert met slechts O(N)-complexiteit, waardoor een optimale balans tussen efficiëntie en precisie wordt bereikt. Verder bouwen wij, om het gebrek aan volledigecyclus benchmarks voor open-einde agenten aan te pakken, Open-Travel en Open-DeepResearch, twee hoogwaardige benchmarks met een uitgebreide pijplijn die SFT, RL-training en multidimensionale evaluatie omvat. Uitgebreide experimenten tonen aan dat ArenaRL standaard RL-baselines aanzienlijk overtreft, waardoor LLM-agenten in staat worden gesteld robuustere oplossingen voor complexe real-world taken te genereren.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.