ArenaRL: 토너먼트 기반 상대적 순위를 통한 개방형 에이전트를 위한 강화학습 확장
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
January 10, 2026
저자: Qiang Zhang, Boli Chen, Fanrui Zhang, Ruixue Ding, Shihang Wang, Qiuchen Wang, Yinfeng Huang, Haonan Zhang, Rongxiang Zhu, Pengyong Wang, Ailin Ren, Xin Li, Pengjun Xie, Jiawei Liu, Ning Guo, Jingren Zhou, Zheng-Jun Zha
cs.AI
초록
강화 학습은 검증 가능한 결과를 가진 작업에서 LLM 에이전트의 성능을 크게 향상시켰지만, 방대한 해결 공간을 가진 개방형 에이전트 작업(예: 복잡한 여행 계획 수립)에서는 여전히 어려움을 겪고 있습니다. 이러한 작업에는 객관적인 기준치가 부재하기 때문에, 현재의 RL 알고리즘은 개별 응답에 스칼라 점수를 부여하는 보상 모델에 크게 의존하고 있습니다. 우리는 이러한 점별 점수 부여 방식이 본질적인 **판별력 붕괴** 문제를 겪는다고 주장합니다: 보상 모델이 서로 다른 경로들 사이의 미묘한 장점을 구분하는 데 어려움을 겪어, 동일 그룹 내 점수들이 좁은 범위로 압축되는 현상이 발생합니다. 결과적으로, 효과적인 보상 신호는 보상 모델의 노이즈에 의해 지배되며, 이는 최적화 정체로 이어집니다.
이를 해결하기 위해 우리는 점별 스칼라 점수 부여에서 그룹 내 상대적 순위 결정으로 전환하는 강화 학습 패러다임인 **ArenaRL**을 제안합니다. ArenaRL은 다단계 평가 기준표를 활용하여 경로에 세분화된 상대 점수를 부여하는 **과정 인식 쌍별 평가 메커니즘**을 도입합니다. additionally, 우리는 그룹 내 적대적 아레나를 구성하고 토너먼트 기반 순위 결정 방식을 고안하여 안정적인 이점 신호를 얻습니다. 실험 결과에 따르면, 구축된 시드 단일 elimination 방식은 O(N²) 복잡도를 가진 전체 쌍별 비교와 거의 동등한 이점 추정 정확도를 달성하면서 오직 O(N) 복잡도로 운영되어 효율성과 정밀도 사이의 최적의 균형을 찾습니다.
더 나아가, 개방형 에이전트를 위한 전주기 벤치마크 부재 문제를 해결하기 위해, SFT, RL 훈련 및 다차원 평가를 아우르는 포괄적인 파이프라인을 특징으로 하는 두 가지 고품질 벤치마크인 **Open-Travel**과 **Open-DeepResearch**를 구축했습니다.广泛的 실험을 통해 ArenaRL이 표준 RL 기준선을 크게 능가하여 LLM 에이전트가 복잡한 현실 세계 작업에 대해 더욱 견고한 해결책을 생성할 수 있게 함을 확인했습니다.
English
Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.