REASONING GYM: Ambienti di Ragionamento per l'Apprendimento per Rinforzo con Ricompense Verificabili
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
May 30, 2025
Autori: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI
Abstract
Presentiamo Reasoning Gym (RG), una libreria di ambienti di ragionamento per l'apprendimento per rinforzo con ricompense verificabili. Offre oltre 100 generatori di dati e verificatori che coprono molteplici domini, tra cui algebra, aritmetica, computazione, cognizione, geometria, teoria dei grafi, logica e vari giochi comuni. La sua innovazione principale è la capacità di generare dati di addestramento virtualmente infiniti con complessità regolabile, a differenza della maggior parte dei precedenti dataset di ragionamento, che sono tipicamente fissi. Questo approccio di generazione procedurale consente una valutazione continua attraverso diversi livelli di difficoltà. I nostri risultati sperimentali dimostrano l'efficacia di RG sia nella valutazione che nell'apprendimento per rinforzo di modelli di ragionamento.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for
reinforcement learning with verifiable rewards. It provides over 100 data
generators and verifiers spanning multiple domains including algebra,
arithmetic, computation, cognition, geometry, graph theory, logic, and various
common games. Its key innovation is the ability to generate virtually infinite
training data with adjustable complexity, unlike most previous reasoning
datasets, which are typically fixed. This procedural generation approach allows
for continuous evaluation across varying difficulty levels. Our experimental
results demonstrate the efficacy of RG in both evaluating and reinforcement
learning of reasoning models.