ArenaRL : Mise à l'échelle de l'Apprentissage par Renforcement pour des Agents Ouverts via un Classement Relatif par Tournoi
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
January 10, 2026
papers.authors: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI
papers.abstract
L'apprentissage par renforcement a considérablement amélioré les performances des agents LLM sur les tâches ayant des résultats vérifiables, mais il peine encore sur les tâches agentives ouvertes aux vastes espaces de solutions (par exemple, la planification de voyages complexes). En l'absence de vérité terrain objective pour ces tâches, les algorithmes de RL actuels reposent largement sur des modèles de récompense qui attribuent des scores scalaires à des réponses individuelles. Nous soutenons qu'un tel scoring ponctuel souffre d'un effondrement de la discrimination inhérent : le modèle de récompense a du mal à distinguer les avantages subtils entre différentes trajectoires, ce qui entraîne une compression des scores au sein d'un groupe dans une plage étroite. Par conséquent, le signal de récompense effectif est dominé par le bruit du modèle de récompense, conduisant à une stagnation de l'optimisation. Pour y remédier, nous proposons ArenaRL, un paradigme d'apprentissage par renforcement qui passe d'un scoring scalaire ponctuel à un classement relatif intra-groupe. ArenaRL introduit un mécanisme d'évaluation par paires conscient du processus, utilisant des grilles d'évaluation multi-niveaux pour attribuer des scores relatifs fins aux trajectoires. De plus, nous construisons une arène adversarial intra-groupe et concevons un système de classement basé sur un tournoi pour obtenir des signaux d'avantage stables. Les résultats empiriques confirment que le système de tournoi à élimination directe que nous avons construit atteint une précision d'estimation de l'avantage presque équivalente aux comparaisons par paires complètes de complexité O(N²), tout en opérant avec une complexité de seulement O(N), établissant un équilibre optimal entre efficacité et précision. Par ailleurs, pour pallier le manque de benchmarks en cycle complet pour les agents ouverts, nous avons construit Open-Travel et Open-DeepResearch, deux benchmarks de haute qualité présentant un pipeline complet couvrant le SFT, l'entraînement par RL et une évaluation multidimensionnelle. Des expériences approfondies montrent qu'ArenaRL surpasse substantiellement les méthodes de référence standards en RL, permettant aux agents LLM de générer des solutions plus robustes pour des tâches réelles complexes.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.