ChatPaper.aiChatPaper

REASONING GYM: Redeneeromgevingen voor Reinforcement Learning met Verifieerbare Beloningen

REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

May 30, 2025
Auteurs: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI

Samenvatting

We introduceren Reasoning Gym (RG), een bibliotheek van redeneeromgevingen voor reinforcement learning met verifieerbare beloningen. Het biedt meer dan 100 datageneratoren en verifiers die meerdere domeinen omvatten, waaronder algebra, rekenen, computationele taken, cognitie, meetkunde, grafentheorie, logica en diverse gangbare spellen. De belangrijkste innovatie is de mogelijkheid om vrijwel oneindige trainingsdata te genereren met instelbare complexiteit, in tegenstelling tot de meeste eerdere redeneerdatasets, die doorgaans vastliggen. Deze procedurele generatiebenadering maakt continue evaluatie mogelijk over verschillende moeilijkheidsgraden. Onze experimentele resultaten tonen de effectiviteit van RG aan, zowel voor evaluatie als voor reinforcement learning van redeneermodellen.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.
PDF624June 3, 2025