Верифицируемые среды — это кирпичики LEGO: рекурсивная композиция для обобщения рассуждений

Аннотация

Обучение с подкреплением (RL) с использованием верифицируемых сред стало мощным подходом для улучшения способностей к рассуждению больших языковых моделей (БЯМ). Хотя предыдущие исследования показывают, что масштабирование количества сред улучшает производительность RL, существующие ручные или индивидуальные методы построения страдают от ограничений линейного масштабирования, что препятствует масштабируемому обобщению рассуждений. В этой статье представлен RACES (Recursive Automated Composition for Environment Scaling) — фреймворк, который рассматривает верифицируемые среды как составляемые строительные блоки, которые можно рекурсивно собирать. Ключевая идея заключается в том, что когда кодомен (тип вывода) одной среды совпадает с доменом (типом ввода) другой, они могут быть автоматически объединены в новую верифицируемую среду, что обеспечивает рекурсивную композицию. RACES реализован с использованием 300 индивидуальных сред и определяет набор операторов композиции (SEQUENTIAL, PARALLEL, SORT и SELECT), которые порождают разнообразные паттерны рассуждений. Обширные эксперименты показывают, что обучение RL на этих составных средах последовательно улучшает обобщение рассуждений. В частности, RACES улучшает показатели DeepSeek-R1-Distill-Qwen-14B в среднем на 3,1 пункта (с 48,2 до 51,3) и повышает производительность Qwen3-14B с 58,8 до 61,1 на шести бенчмарках, которые не использовались при построении обучающих сред. Более того, RACES достигает производительности, сопоставимой с обучением на 300 индивидуальных средах, используя всего 50 базовых сред, что демонстрирует значительную эффективность использования сред.

English

Reinforcement Learning (RL) with verifiable environments has emerged as a powerful approach for enhancing the reasoning capabilities of Large Language Models (LLMs). While prior research demonstrates that scaling environment quantity improves RL performance, existing manual or individual construction methods suffer from linear scaling limits, thereby hindering scalable reasoning generalization. This paper introduces RACES (Recursive Automated Composition for Environment Scaling), a framework that conceptualizes verifiable environments as composable building blocks that can be recursively assembled. The key insight is that when the codomain (output type) of one environment matches the domain (input type) of another, they can be automatically fused into a new verifiable environment, enabling recursive composition. RACES is implemented with 300 individual environments and defines a set of composition operators (SEQUENTIAL, PARALLEL, SORT, and SELECT) that induce diverse reasoning patterns. Extensive experiments show that RL training on these composite environments consistently enhances reasoning generalization. Specifically, RACES improves DeepSeek-R1-Distill-Qwen-14B by an average of 3.1 points (from 48.2 to 51.3) and boosts Qwen3-14B performance from 58.8 to 61.1 on six benchmarks, which are unseen during the construction of training environments. Moreover, RACES achieves performance comparable to training on 300 individual environments using only 50 base environments, demonstrating significant efficiency in environment utilization.