De waarde terugbrengen in RL: Betere schaalbaarheid tijdens testen door het verenigen van LLM-redeneerders met verificatoren
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
May 7, 2025
Auteurs: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
cs.AI
Samenvatting
Gangbare reinforcement learning (RL)-methoden voor het finetunen van LLM-redeneerders, zoals GRPO of Leave-one-out PPO, verlaten de geleerde waardefunctie ten gunste van empirisch geschatte returns. Dit belemmert de schaalbaarheid van rekentijd tijdens testen die afhankelijk is van het gebruik van de waardefunctie voor verificatie. In dit werk stellen we RL^V voor, dat elke "waardevrije" RL-methode aanvult door de LLM gezamenlijk te trainen als zowel een redeneerder als een generatieve verificateur met behulp van RL-gegenereerde data, waardoor verificatiemogelijkheden worden toegevoegd zonder significante overhead. Empirisch gezien verhoogt RL^V de nauwkeurigheid van MATH met meer dan 20% bij parallelle sampling en maakt het 8-32 keer efficiëntere schaalbaarheid van rekentijd tijdens testen mogelijk in vergelijking met de basis-RL-methode. RL^V vertoont ook sterke generalisatiecapaciteiten voor zowel eenvoudige-naar-moeilijke als out-of-domain taken. Bovendien behaalt RL^V 1,2-1,6 keer hogere prestaties bij het gezamenlijk schalen van parallelle en sequentiële rekentijd tijdens testen met een lang redenerend R1-model.
English
Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners,
such as GRPO or Leave-one-out PPO, abandon the learned value function in favor
of empirically estimated returns. This hinders test-time compute scaling that
relies on using the value-function for verification. In this work, we propose
RL^V that augments any ``value-free'' RL method by jointly training the LLM
as both a reasoner and a generative verifier using RL-generated data, adding
verification capabilities without significant overhead. Empirically, RL^V
boosts MATH accuracy by over 20\% with parallel sampling and enables
8-32times efficient test-time compute scaling compared to the base RL
method. RL^V also exhibits strong generalization capabilities for both
easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves
1.2-1.6times higher performance when jointly scaling parallel and sequential
test-time compute with a long reasoning R1 model.