Возвращение ценности в RL: улучшение масштабирования на этапе тестирования через объединение LLM-рассуждающих моделей с верификаторами

Аннотация

Распространенные методы обучения с подкреплением (RL) для тонкой настройки моделей языкового мышления (LLM), такие как GRPO или Leave-one-out PPO, отказываются от изученной функции ценности в пользу эмпирически оцененных возвратов. Это ограничивает масштабирование вычислительных ресурсов на этапе тестирования, которое зависит от использования функции ценности для проверки. В данной работе мы предлагаем RL^V, который расширяет любой «бесценностный» метод RL, совместно обучая LLM как в роли решателя, так и в роли генеративного верификатора с использованием данных, сгенерированных RL, добавляя возможности проверки без значительных накладных расходов. Эмпирически RL^V повышает точность на наборе MATH более чем на 20% при параллельной выборке и обеспечивает 8-32-кратное повышение эффективности вычислительных ресурсов на этапе тестирования по сравнению с базовым методом RL. RL^V также демонстрирует сильные способности к обобщению как для задач от простых к сложным, так и для задач вне домена. Кроме того, RL^V достигает 1.2-1.6-кратного повышения производительности при совместном масштабировании параллельных и последовательных вычислительных ресурсов на этапе тестирования с использованием модели длинного рассуждения R1.

English

Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners, such as GRPO or Leave-one-out PPO, abandon the learned value function in favor of empirically estimated returns. This hinders test-time compute scaling that relies on using the value-function for verification. In this work, we propose RL^V that augments any ``value-free'' RL method by jointly training the LLM as both a reasoner and a generative verifier using RL-generated data, adding verification capabilities without significant overhead. Empirically, RL^V boosts MATH accuracy by over 20\% with parallel sampling and enables 8-32times efficient test-time compute scaling compared to the base RL method. RL^V also exhibits strong generalization capabilities for both easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves 1.2-1.6times higher performance when jointly scaling parallel and sequential test-time compute with a long reasoning R1 model.

Возвращение ценности в RL: улучшение масштабирования на этапе тестирования через объединение LLM-рассуждающих моделей с верификаторами

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Аннотация

Support