GINÁSIO DE RAZOCÍNIO: Ambientes de Raciocínio para Aprendizado por Reforço com Recompensas Verificáveis
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
May 30, 2025
Autores: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI
Resumo
Apresentamos o Reasoning Gym (RG), uma biblioteca de ambientes de raciocínio para aprendizado por reforço com recompensas verificáveis. Ele oferece mais de 100 geradores e verificadores de dados abrangendo múltiplos domínios, incluindo álgebra, aritmética, computação, cognição, geometria, teoria dos grafos, lógica e diversos jogos comuns. Sua principal inovação é a capacidade de gerar virtualmente infinitos dados de treinamento com complexidade ajustável, ao contrário da maioria dos conjuntos de dados de raciocínio anteriores, que são tipicamente fixos. Essa abordagem de geração procedural permite uma avaliação contínua em diferentes níveis de dificuldade. Nossos resultados experimentais demonstram a eficácia do RG tanto na avaliação quanto no aprendizado por reforço de modelos de raciocínio.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for
reinforcement learning with verifiable rewards. It provides over 100 data
generators and verifiers spanning multiple domains including algebra,
arithmetic, computation, cognition, geometry, graph theory, logic, and various
common games. Its key innovation is the ability to generate virtually infinite
training data with adjustable complexity, unlike most previous reasoning
datasets, which are typically fixed. This procedural generation approach allows
for continuous evaluation across varying difficulty levels. Our experimental
results demonstrate the efficacy of RG in both evaluating and reinforcement
learning of reasoning models.