ChatPaper.aiChatPaper

REASONING GYM: Umgebungen für logisches Denken im Reinforcement Learning mit verifizierbaren Belohnungen

REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

May 30, 2025
Autoren: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI

Zusammenfassung

Wir stellen Reasoning Gym (RG) vor, eine Bibliothek von Umgebungen für das Verstärkungslernen mit überprüfbaren Belohnungen. Sie bietet über 100 Daten-Generatoren und Verifizierer, die mehrere Domänen abdecken, darunter Algebra, Arithmetik, Berechnung, Kognition, Geometrie, Graphentheorie, Logik und verschiedene gängige Spiele. Die zentrale Innovation besteht in der Fähigkeit, nahezu unendliche Trainingsdaten mit einstellbarer Komplexität zu generieren, im Gegensatz zu den meisten bisherigen Datensätzen für das logische Denken, die typischerweise festgelegt sind. Dieser prozedurale Generierungsansatz ermöglicht eine kontinuierliche Bewertung über verschiedene Schwierigkeitsgrade hinweg. Unsere experimentellen Ergebnisse demonstrieren die Wirksamkeit von RG sowohl bei der Bewertung als auch beim Verstärkungslernen von Modellen für logisches Denken.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.
PDF584June 3, 2025