GINÁSIO DE RAZOCÍNIO: Ambientes de Raciocínio para Aprendizado por Reforço com Recompensas Verificáveis

Resumo

Apresentamos o Reasoning Gym (RG), uma biblioteca de ambientes de raciocínio para aprendizado por reforço com recompensas verificáveis. Ele oferece mais de 100 geradores e verificadores de dados abrangendo múltiplos domínios, incluindo álgebra, aritmética, computação, cognição, geometria, teoria dos grafos, lógica e diversos jogos comuns. Sua principal inovação é a capacidade de gerar virtualmente infinitos dados de treinamento com complexidade ajustável, ao contrário da maioria dos conjuntos de dados de raciocínio anteriores, que são tipicamente fixos. Essa abordagem de geração procedural permite uma avaliação contínua em diferentes níveis de dificuldade. Nossos resultados experimentais demonstram a eficácia do RG tanto na avaliação quanto no aprendizado por reforço de modelos de raciocínio.

English

We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.

GINÁSIO DE RAZOCÍNIO: Ambientes de Raciocínio para Aprendizado por Reforço com Recompensas Verificáveis

REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

Resumo

Support