Redeneringsarena: Trace-toernooien wanneer verifieerbare beloningen tekortschieten

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een toonaangevend paradigma geworden voor het verbeteren van het redeneervermogen van grote taalmodellen door middel van uitkomstgebaseerd toezicht. Echter, verifieerbare beloningen worden vaak oninformatief op groepsniveau: wanneer alle gesamplede traces van een bepaalde prompt identieke beloningen ontvangen, levert groepsrelatieve voordeelschatting geen gradientsignaal op, ook al kunnen de traces aanzienlijk verschillen in redeneerkwaliteit. We stellen Reasoning Arena voor, een adaptief trainingsraamwerk dat dergelijke niet-diverse beloningsgroepen naar een beoordelaarssysteem stuurt in plaats van ze weg te gooien. Naast het onderzoeken van het uiteindelijke antwoord, construeert Reasoning Arena trace-toernooien, waarin redeneertraces head-to-head worden vergeleken om fijnmazigere voorkeuren binnen de groep bloot te leggen, waardoor redeneerkwaliteit wordt omgezet in rijke relatieve beloningssignalen. Om de beloningsschatting efficiënt te maken, wordt in plaats van elk paar uitputtend te vergelijken, elke nieuwe trace geëvalueerd tegen een kleine, dynamisch bijgewerkte pool van eerder gegenereerde traces als ankers om efficiënt een relatieve rangschikking vast te stellen. Vervolgens passen we een Bradley-Terry-model toe op de onvolledige vergelijkingsgraaf, wat schaalbare RL-integratie mogelijk maakt zonder kwadratische paarsgewijze vergelijkingen. Empirische resultaten tonen aan dat Reasoning Arena de RLVR-baseline gemiddeld met 7,6% overtreft in competitiewiskunde- en codeerbenchmarks. Door anderszins verspilde nulvoordeelvoorbeelden om te zetten in nuttige gradiëntupdates, versnelt onze methode de training met 27% tot 41%, bespaart het bijna 50% van de generatieberekeningen en verbetert het de algehele redeneerprestaties aanzienlijk.

English

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.