Reasoning Arena: Spur-Turniere, wenn überprüfbare Belohnungen nicht ausreichen

Zusammenfassung

Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einem führenden Paradigma entwickelt, um die Denkfähigkeit großer Sprachmodelle durch ergebnisbasierte Überwachung zu verbessern. Allerdings werden überprüfbare Belohnungen auf Gruppenebene häufig uninformativ: Wenn alle abgetasteten Spuren einer gegebenen Eingabeaufforderung identische Belohnungen erhalten, liefert die Schätzung des gruppenrelativen Vorteils kein Gradientensignal, selbst wenn sich die Spuren in ihrer Denkqualität erheblich unterscheiden. Wir schlagen Reasoning Arena vor, ein adaptives Trainingsframework, das solche nicht-diversen Belohnungsgruppen an ein Bewertungssystem weiterleitet, anstatt sie zu verwerfen. Über die Prüfung der endgültigen Antwort hinaus konstruiert Reasoning Arena Spurenturniere, bei denen Denkspuren direkt miteinander verglichen werden, um feinere Präferenzen innerhalb der Gruppe aufzudecken und die Denkqualität in reichhaltige relative Belohnungssignale umzuwandeln. Um die Schätzung der Belohnungen effizient zu gestalten, wird nicht jedes Paar erschöpfend verglichen; stattdessen wird jede neue Spur gegen einen kleinen, dynamisch aktualisierten Pool zuvor generierter Spuren als Anker evaluiert, um effizient eine relative Rangfolge zu etablieren. Anschließend passen wir ein Bradley-Terry-Modell an den unvollständigen Vergleichsgraphen an, was eine skalierbare RL-Integration ohne quadratische Paarvergleiche ermöglicht. Empirische Ergebnisse zeigen, dass Reasoning Arena den RLVR-Baseline durchschnittlich um 7,6 % bei Wettbewerbsmathematik- und Programmier-Benchmarks übertrifft. Durch die Umwandlung sonst nutzloser Null-Vorteils-Stichproben in nützliche Gradientenaktualisierungen beschleunigt unsere Methode das Training um 27 % bis 41 %, spart fast 50 % des Generierungsaufwands und verbessert die allgemeine Denkleistung erheblich.

English

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.