Den Wert zurück in RL bringen: Bessere Skalierung zur Testzeit durch Vereinheitlichung von LLM-Reasonern mit Verifizierern
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
May 7, 2025
Autoren: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
cs.AI
Zusammenfassung
Vorherrschende Reinforcement-Learning-(RL)-Methoden zur Feinabstimmung von LLM-Reasonern, wie GRPO oder Leave-one-out PPO, verwerfen die gelernte Wertfunktion zugunsten empirisch geschätzter Erträge. Dies behindert die Skalierung der Rechenleistung zur Testzeit, die auf die Verwendung der Wertfunktion zur Verifizierung angewiesen ist. In dieser Arbeit schlagen wir RL^V vor, das jede „wertfreie“ RL-Methode erweitert, indem es das LLM gemeinsam als Reasoner und generativen Verifizierer unter Verwendung von RL-generierten Daten trainiert und so Verifizierungsfähigkeiten ohne signifikanten Overhead hinzufügt. Empirisch steigert RL^V die MATH-Genauigkeit um über 20 % bei paralleler Stichprobenentnahme und ermöglicht eine 8-32-fach effizientere Skalierung der Rechenleistung zur Testzeit im Vergleich zur Basismethode RL. RL^V zeigt auch starke Generalisierungsfähigkeiten sowohl für einfach-schwierige als auch für domänenübergreifende Aufgaben. Darüber hinaus erzielt RL^V eine 1,2-1,6-fach höhere Leistung bei der gemeinsamen Skalierung von paralleler und sequentieller Rechenleistung zur Testzeit mit einem langen Reasoning-R1-Modell.
English
Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners,
such as GRPO or Leave-one-out PPO, abandon the learned value function in favor
of empirically estimated returns. This hinders test-time compute scaling that
relies on using the value-function for verification. In this work, we propose
RL^V that augments any ``value-free'' RL method by jointly training the LLM
as both a reasoner and a generative verifier using RL-generated data, adding
verification capabilities without significant overhead. Empirically, RL^V
boosts MATH accuracy by over 20\% with parallel sampling and enables
8-32times efficient test-time compute scaling compared to the base RL
method. RL^V also exhibits strong generalization capabilities for both
easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves
1.2-1.6times higher performance when jointly scaling parallel and sequential
test-time compute with a long reasoning R1 model.Summary
AI-Generated Summary