ChatPaper.aiChatPaper

GINÁSIO DE RAZOCÍNIO: Ambientes de Raciocínio para Aprendizado por Reforço com Recompensas Verificáveis

REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

May 30, 2025
Autores: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI

Resumo

Apresentamos o Reasoning Gym (RG), uma biblioteca de ambientes de raciocínio para aprendizado por reforço com recompensas verificáveis. Ele oferece mais de 100 geradores e verificadores de dados abrangendo múltiplos domínios, incluindo álgebra, aritmética, computação, cognição, geometria, teoria dos grafos, lógica e diversos jogos comuns. Sua principal inovação é a capacidade de gerar virtualmente infinitos dados de treinamento com complexidade ajustável, ao contrário da maioria dos conjuntos de dados de raciocínio anteriores, que são tipicamente fixos. Essa abordagem de geração procedural permite uma avaliação contínua em diferentes níveis de dificuldade. Nossos resultados experimentais demonstram a eficácia do RG tanto na avaliação quanto no aprendizado por reforço de modelos de raciocínio.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.
PDF734June 3, 2025