RLVE: Escalonando o Aprendizado por Reforço para Modelos de Linguagem com Ambientes Verificáveis Adaptativos

Resumo

Apresentamos o Aprendizado por Reforço (RL) com Ambientes Verificáveis Adaptativos (RLVE), uma abordagem que utiliza ambientes verificáveis que geram problemas de forma procedural e fornecem recompensas algoritmicamente verificáveis, para escalar o RL para modelos de linguagem (LMs). O RLVE permite que cada ambiente verificável adapte dinamicamente a distribuição de dificuldade dos problemas às capacidades do modelo de política conforme o treinamento avança. Em contraste, distribuições de dados estáticas frequentemente levam ao desaparecimento do sinal de aprendizado quando os problemas são muito fáceis ou muito difíceis para a política. Para implementar o RLVE, criamos o RLVE-Gym, um conjunto em larga escala de 400 ambientes verificáveis, cuidadosamente desenvolvido por meio de engenharia manual de ambientes. Usando o RLVE-Gym, mostramos que a escalabilidade de ambientes, ou seja, a expansão do conjunto de ambientes de treinamento, melhora consistentemente as capacidades de raciocínio generalizáveis. O RLVE com treinamento conjunto em todos os 400 ambientes do RLVE-Gym produz uma melhoria média absoluta de 3,37% em seis benchmarks de raciocínio, partindo de um dos LMs de raciocínio de 1,5B mais robustos. Em comparação, continuar o treinamento de RL original deste LM resulta em um ganho médio absoluto de apenas 0,49%, apesar de usar mais de 3 vezes mais poder computacional. Disponibilizamos nosso código publicamente.

English

We introduce Reinforcement Learning (RL) with Adaptive Verifiable Environments (RLVE), an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). RLVE enables each verifiable environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses. In contrast, static data distributions often lead to vanishing learning signals when problems are either too easy or too hard for the policy. To implement RLVE, we create RLVE-Gym, a large-scale suite of 400 verifiable environments carefully developed through manual environment engineering. Using RLVE-Gym, we show that environment scaling, i.e., expanding the collection of training environments, consistently improves generalizable reasoning capabilities. RLVE with joint training across all 400 environments in RLVE-Gym yields a 3.37% absolute average improvement across six reasoning benchmarks, starting from one of the strongest 1.5B reasoning LMs. By comparison, continuing this LM's original RL training yields only a 0.49% average absolute gain despite using over 3x more compute. We release our code publicly.

RLVE: Escalonando o Aprendizado por Reforço para Modelos de Linguagem com Ambientes Verificáveis Adaptativos

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

Resumo

Support