Arène de Raisonnement : Tournois de Trace lorsque les récompenses vérifiables s'avèrent insuffisantes.

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme de référence pour améliorer la capacité de raisonnement des grands modèles de langage grâce à une supervision basée sur les résultats. Cependant, les récompenses vérifiables deviennent fréquemment non informatives au niveau du groupe : lorsque toutes les traces échantillonnées pour une requête donnée reçoivent des récompenses identiques, l'estimation d'avantage relatif au groupe ne fournit aucun signal de gradient, même si ces traces peuvent différer considérablement en termes de qualité de raisonnement. Nous proposons Reasoning Arena, un cadre d'apprentissage adaptatif qui oriente ces groupes de récompenses non diversifiés vers un système de juges plutôt que de les ignorer. Au-delà de l'examen de la réponse finale, Reasoning Arena construit des tournois de traces, où les traces de raisonnement sont comparées en tête-à-tête afin de révéler des préférences plus fines au sein du groupe, convertissant ainsi la qualité du raisonnement en signaux de récompense relatifs riches. Pour une estimation efficace des récompenses, plutôt que de comparer exhaustivement chaque paire, chaque nouvelle trace est évaluée par rapport à un petit ensemble dynamique de traces générées précédemment, servant d'ancres, afin d'établir efficacement un classement relatif. Nous ajustons ensuite un modèle de Bradley-Terry sur le graphe de comparaison incomplet, ce qui permet une intégration évolutive avec l'apprentissage par renforcement sans nécessiter de comparaisons par paires quadratiques. Les résultats empiriques montrent que Reasoning Arena surpasse systématiquement la référence RLVR de 7,6 % en moyenne dans les benchmarks de mathématiques de compétition et de codage. En convertissant les échantillons à avantage nul autrement gaspillés en mises à jour de gradient utiles, notre méthode accélère l'entraînement de 27 % à 41 %, économise près de 50 % du calcul de génération et améliore considérablement la performance globale de raisonnement.

English

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.