Colocando o Valor de Volta no RL: Melhor Escalonamento em Testes ao Unificar Raciocinadores de LLM com Verificadores
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
May 7, 2025
Autores: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini
cs.AI
Resumo
Métodos prevalentes de aprendizado por reforço (RL) para ajuste fino de modelos de linguagem grandes (LLM) que realizam raciocínio, como GRPO ou PPO Leave-one-out, abandonam a função de valor aprendida em favor de retornos estimados empiricamente. Isso dificulta a escalabilidade de computação em tempo de teste que depende do uso da função de valor para verificação. Neste trabalho, propomos o RL^V, que aprimora qualquer método de RL "sem valor" ao treinar conjuntamente o LLM como um raciocínio e um verificador generativo usando dados gerados por RL, adicionando capacidades de verificação sem sobrecarga significativa. Empiricamente, o RL^V aumenta a precisão em MATH em mais de 20% com amostragem paralela e permite uma escalabilidade de computação em tempo de teste 8 a 32 vezes mais eficiente em comparação com o método de RL base. O RL^V também exibe fortes capacidades de generalização tanto para tarefas fáceis-difíceis quanto para tarefas fora do domínio. Além disso, o RL^V alcança um desempenho 1,2 a 1,6 vezes maior ao escalar conjuntamente a computação paralela e sequencial em tempo de teste com um modelo de raciocínio longo R1.
English
Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners,
such as GRPO or Leave-one-out PPO, abandon the learned value function in favor
of empirically estimated returns. This hinders test-time compute scaling that
relies on using the value-function for verification. In this work, we propose
RL^V that augments any ``value-free'' RL method by jointly training the LLM
as both a reasoner and a generative verifier using RL-generated data, adding
verification capabilities without significant overhead. Empirically, RL^V
boosts MATH accuracy by over 20\% with parallel sampling and enables
8-32times efficient test-time compute scaling compared to the base RL
method. RL^V also exhibits strong generalization capabilities for both
easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves
1.2-1.6times higher performance when jointly scaling parallel and sequential
test-time compute with a long reasoning R1 model.