ArenaRL: Scalabilità dell'Apprendimento per Rinforzo per Agenti Aperti Tramite Classifica Relativa Basata su Torneo

Abstract

L'apprendimento per rinforzo ha migliorato significativamente le prestazioni degli agenti LLM su compiti con risultati verificabili, ma incontra ancora difficoltà in compiti agentivi aperti con spazi di soluzione vasti (ad esempio, la pianificazione di viaggi complessi). A causa dell'assenza di una verità di riferimento oggettiva per questi compiti, gli attuali algoritmi RL si basano in larga misura su modelli di ricompensa che assegnano punteggi scalari a singole risposte. Sosteniamo che tale valutazione puntuale soffra di un collasso intrinseco della discriminazione: il modello di ricompensa fatica a distinguere i vantaggi sottili tra diverse traiettorie, facendo sì che i punteggi all'interno di un gruppo vengano compressi in un intervallo ristretto. Di conseguenza, il segnale di ricompensa efficace diventa dominato dal rumore del modello di ricompensa, portando a una stagnazione dell'ottimizzazione. Per affrontare questo problema, proponiamo ArenaRL, un paradigma di apprendimento per rinforzo che passa dalla valutazione scalare puntuale al ranking relativo intra-gruppo. ArenaRL introduce un meccanismo di valutazione pairwise consapevole del processo, impiegando rubriche multilivello per assegnare punteggi relativi a grana fine alle traiettorie. Inoltre, costruiamo un'arena avversaria intra-gruppo e ideiamo uno schema di classificazione basato su tornei per ottenere segnali di vantaggio stabili. I risultati empirici confermano che lo schema di eliminazione diretta con seeding costruito raggiunge un'accuratezza di stima del vantaggio quasi equivalente ai confronti pairwise completi con complessità O(N²), operando però con una complessità di soli O(N), trovando un equilibrio ottimale tra efficienza e precisione. Inoltre, per ovviare alla carenza di benchmark a ciclo completo per agenti aperti, costruiamo Open-Travel e Open-DeepResearch, due benchmark di alta qualità che presentano una pipeline completa che copre SFT, addestramento RL e valutazione multidimensionale. Esperimenti estensivi mostrano che ArenaRL supera sostanzialmente i baseline RL standard, consentendo agli agenti LLM di generare soluzioni più robuste per compiti real-world complessi.

English

Reinforcement learning has substantially improved the performance of LLM agents on tasks with verifiable outcomes, but it still struggles on open-ended agent tasks with vast solution spaces (e.g., complex travel planning). Due to the absence of objective ground-truth for these tasks, current RL algorithms largely rely on reward models that assign scalar scores to individual responses. We contend that such pointwise scoring suffers from an inherent discrimination collapse: the reward model struggles to distinguish subtle advantages among different trajectories, resulting in scores within a group being compressed into a narrow range. Consequently, the effective reward signal becomes dominated by noise from the reward model, leading to optimization stagnation. To address this, we propose ArenaRL, a reinforcement learning paradigm that shifts from pointwise scalar scoring to intra-group relative ranking. ArenaRL introduces a process-aware pairwise evaluation mechanism, employing multi-level rubrics to assign fine-grained relative scores to trajectories. Additionally, we construct an intra-group adversarial arena and devise a tournament-based ranking scheme to obtain stable advantage signals. Empirical results confirm that the built seeded single-elimination scheme achieves nearly equivalent advantage estimation accuracy to full pairwise comparisons with O(N^2) complexity, while operating with only O(N) complexity, striking an optimal balance between efficiency and precision. Furthermore, to address the lack of full-cycle benchmarks for open-ended agents, we build Open-Travel and Open-DeepResearch, two high-quality benchmarks featuring a comprehensive pipeline covering SFT, RL training, and multi-dimensional evaluation. Extensive experiments show that ArenaRL substantially outperforms standard RL baselines, enabling LLM agents to generate more robust solutions for complex real-world tasks.

ArenaRL: Scalabilità dell'Apprendimento per Rinforzo per Agenti Aperti Tramite Classifica Relativa Basata su Torneo

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Abstract

Support