GIMNASIO DE RAZONAMIENTO: Entornos de Razonamiento para Aprendizaje por Refuerzo con Recompensas Verificables
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
May 30, 2025
Autores: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI
Resumen
Presentamos Reasoning Gym (RG), una biblioteca de entornos de razonamiento para aprendizaje por refuerzo con recompensas verificables. Ofrece más de 100 generadores y verificadores de datos que abarcan múltiples dominios, incluyendo álgebra, aritmética, computación, cognición, geometría, teoría de grafos, lógica y varios juegos comunes. Su innovación clave es la capacidad de generar virtualmente datos de entrenamiento infinitos con complejidad ajustable, a diferencia de la mayoría de los conjuntos de datos de razonamiento anteriores, que suelen ser fijos. Este enfoque de generación procedural permite una evaluación continua a través de distintos niveles de dificultad. Nuestros resultados experimentales demuestran la eficacia de RG tanto en la evaluación como en el aprendizaje por refuerzo de modelos de razonamiento.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for
reinforcement learning with verifiable rewards. It provides over 100 data
generators and verifiers spanning multiple domains including algebra,
arithmetic, computation, cognition, geometry, graph theory, logic, and various
common games. Its key innovation is the ability to generate virtually infinite
training data with adjustable complexity, unlike most previous reasoning
datasets, which are typically fixed. This procedural generation approach allows
for continuous evaluation across varying difficulty levels. Our experimental
results demonstrate the efficacy of RG in both evaluating and reinforcement
learning of reasoning models.