REASONING GYM: Среды для обучения с подкреплением с проверяемыми вознаграждениями
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
May 30, 2025
Авторы: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf
cs.AI
Аннотация
Мы представляем Reasoning Gym (RG) — библиотеку сред для обучения с подкреплением, ориентированных на задачи логического рассуждения с верифицируемыми наградами. Она включает более 100 генераторов данных и верификаторов, охватывающих такие области, как алгебра, арифметика, вычисления, когнитивные задачи, геометрия, теория графов, логика и различные популярные игры. Ключевым нововведением является возможность генерации практически бесконечных объемов обучающих данных с регулируемой сложностью, в отличие от большинства существующих наборов данных для рассуждений, которые обычно фиксированы. Такой подход к процедурной генерации позволяет проводить непрерывную оценку на различных уровнях сложности. Наши экспериментальные результаты демонстрируют эффективность RG как для оценки, так и для обучения с подкреплением моделей логического рассуждения.
English
We introduce Reasoning Gym (RG), a library of reasoning environments for
reinforcement learning with verifiable rewards. It provides over 100 data
generators and verifiers spanning multiple domains including algebra,
arithmetic, computation, cognition, geometry, graph theory, logic, and various
common games. Its key innovation is the ability to generate virtually infinite
training data with adjustable complexity, unlike most previous reasoning
datasets, which are typically fixed. This procedural generation approach allows
for continuous evaluation across varying difficulty levels. Our experimental
results demonstrate the efficacy of RG in both evaluating and reinforcement
learning of reasoning models.