Den Wert zurück in RL bringen: Bessere Skalierung zur Testzeit durch Vereinheitlichung von LLM-Reasonern mit Verifizierern

Zusammenfassung

Vorherrschende Reinforcement-Learning-(RL)-Methoden zur Feinabstimmung von LLM-Reasonern, wie GRPO oder Leave-one-out PPO, verwerfen die gelernte Wertfunktion zugunsten empirisch geschätzter Erträge. Dies behindert die Skalierung der Rechenleistung zur Testzeit, die auf die Verwendung der Wertfunktion zur Verifizierung angewiesen ist. In dieser Arbeit schlagen wir RL^V vor, das jede „wertfreie“ RL-Methode erweitert, indem es das LLM gemeinsam als Reasoner und generativen Verifizierer unter Verwendung von RL-generierten Daten trainiert und so Verifizierungsfähigkeiten ohne signifikanten Overhead hinzufügt. Empirisch steigert RL^V die MATH-Genauigkeit um über 20 % bei paralleler Stichprobenentnahme und ermöglicht eine 8-32-fach effizientere Skalierung der Rechenleistung zur Testzeit im Vergleich zur Basismethode RL. RL^V zeigt auch starke Generalisierungsfähigkeiten sowohl für einfach-schwierige als auch für domänenübergreifende Aufgaben. Darüber hinaus erzielt RL^V eine 1,2-1,6-fach höhere Leistung bei der gemeinsamen Skalierung von paralleler und sequentieller Rechenleistung zur Testzeit mit einem langen Reasoning-R1-Modell.

English

Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners, such as GRPO or Leave-one-out PPO, abandon the learned value function in favor of empirically estimated returns. This hinders test-time compute scaling that relies on using the value-function for verification. In this work, we propose RL^V that augments any ``value-free'' RL method by jointly training the LLM as both a reasoner and a generative verifier using RL-generated data, adding verification capabilities without significant overhead. Empirically, RL^V boosts MATH accuracy by over 20\% with parallel sampling and enables 8-32times efficient test-time compute scaling compared to the base RL method. RL^V also exhibits strong generalization capabilities for both easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves 1.2-1.6times higher performance when jointly scaling parallel and sequential test-time compute with a long reasoning R1 model.

Den Wert zurück in RL bringen: Bessere Skalierung zur Testzeit durch Vereinheitlichung von LLM-Reasonern mit Verifizierern

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Zusammenfassung

Support