Возвращение ценности в RL: улучшение масштабирования на этапе тестирования через объединение LLM-рассуждающих моделей с верификаторами
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
May 7, 2025
Авторы: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
cs.AI
Аннотация
Распространенные методы обучения с подкреплением (RL) для тонкой настройки моделей языкового мышления (LLM), такие как GRPO или Leave-one-out PPO, отказываются от изученной функции ценности в пользу эмпирически оцененных возвратов. Это ограничивает масштабирование вычислительных ресурсов на этапе тестирования, которое зависит от использования функции ценности для проверки. В данной работе мы предлагаем RL^V, который расширяет любой «бесценностный» метод RL, совместно обучая LLM как в роли решателя, так и в роли генеративного верификатора с использованием данных, сгенерированных RL, добавляя возможности проверки без значительных накладных расходов. Эмпирически RL^V повышает точность на наборе MATH более чем на 20% при параллельной выборке и обеспечивает 8-32-кратное повышение эффективности вычислительных ресурсов на этапе тестирования по сравнению с базовым методом RL. RL^V также демонстрирует сильные способности к обобщению как для задач от простых к сложным, так и для задач вне домена. Кроме того, RL^V достигает 1.2-1.6-кратного повышения производительности при совместном масштабировании параллельных и последовательных вычислительных ресурсов на этапе тестирования с использованием модели длинного рассуждения R1.
English
Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners,
such as GRPO or Leave-one-out PPO, abandon the learned value function in favor
of empirically estimated returns. This hinders test-time compute scaling that
relies on using the value-function for verification. In this work, we propose
RL^V that augments any ``value-free'' RL method by jointly training the LLM
as both a reasoner and a generative verifier using RL-generated data, adding
verification capabilities without significant overhead. Empirically, RL^V
boosts MATH accuracy by over 20\% with parallel sampling and enables
8-32times efficient test-time compute scaling compared to the base RL
method. RL^V also exhibits strong generalization capabilities for both
easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves
1.2-1.6times higher performance when jointly scaling parallel and sequential
test-time compute with a long reasoning R1 model.Summary
AI-Generated Summary