GYM DE RAISONNEMENT : Environnements de raisonnement pour l'apprentissage par renforcement avec récompenses vérifiables
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
May 30, 2025
Auteurs: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI
Résumé
Nous présentons Reasoning Gym (RG), une bibliothèque d'environnements de raisonnement pour l'apprentissage par renforcement avec des récompenses vérifiables. Elle propose plus de 100 générateurs et vérificateurs de données couvrant de multiples domaines, notamment l'algèbre, l'arithmétique, le calcul, la cognition, la géométrie, la théorie des graphes, la logique et divers jeux courants. Son innovation clé réside dans sa capacité à générer virtuellement une infinité de données d'entraînement avec une complexité ajustable, contrairement à la plupart des ensembles de données de raisonnement précédents, qui sont généralement fixes. Cette approche de génération procédurale permet une évaluation continue à travers différents niveaux de difficulté. Nos résultats expérimentaux démontrent l'efficacité de RG à la fois pour l'évaluation et l'apprentissage par renforcement des modèles de raisonnement.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for
reinforcement learning with verifiable rewards. It provides over 100 data
generators and verifiers spanning multiple domains including algebra,
arithmetic, computation, cognition, geometry, graph theory, logic, and various
common games. Its key innovation is the ability to generate virtually infinite
training data with adjustable complexity, unlike most previous reasoning
datasets, which are typically fixed. This procedural generation approach allows
for continuous evaluation across varying difficulty levels. Our experimental
results demonstrate the efficacy of RG in both evaluating and reinforcement
learning of reasoning models.