Обучение рассуждению как абстракциям действий с масштабируемым обучением с подкреплением в середине процесса
Learning to Reason as Action Abstractions with Scalable Mid-Training RL
September 30, 2025
Авторы: Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang
cs.AI
Аннотация
Крупные языковые модели демонстрируют выдающиеся результаты с использованием обучения с подкреплением (RL), но для полного раскрытия этого потенциала необходим промежуточный этап обучения. Эффективный промежуточный этап должен выявить компактный набор полезных действий и обеспечить их быстрое выбор через онлайн RL. Мы формализуем эту интуицию, представляя первый теоретический результат о том, как промежуточное обучение влияет на последующее: он характеризует подпространство действий, которое минимизирует как ошибку аппроксимации значения, возникающую при сокращении, так и ошибку RL в ходе последующего планирования. Наш анализ выявляет два ключевых фактора эффективности промежуточного обучения: эффективность сокращения, которая формирует априорное распределение начальной политики RL, и её влияние на сходимость RL, которое определяет степень, в которой эту политику можно улучшить с помощью онлайн-взаимодействий. Эти результаты показывают, что промежуточное обучение наиболее эффективно, когда пространство решений компактно, а эффективный горизонт короткий, подчеркивая важность работы в пространстве абстракций действий, а не примитивных действий. Опираясь на эти идеи, мы предлагаем Reasoning as Action Abstractions (RA3), масштабируемый алгоритм промежуточного обучения. В частности, мы выводим последовательную вариационную нижнюю границу и оптимизируем её, итеративно обнаруживая временно-согласованные латентные структуры с помощью RL, с последующей тонкой настройкой на бутстраппированных данных. Эксперименты на задачах генерации кода демонстрируют эффективность нашего подхода. На нескольких базовых моделях RA3 улучшает среднюю производительность на HumanEval и MBPP на 8 и 4 пункта по сравнению с базовой моделью и базовым методом предсказания следующего токена. Кроме того, RA3 достигает более быстрой сходимости и более высокой асимптотической производительности в RLVR на HumanEval+, MBPP+, LiveCodeBench и Codeforces.
English
Large language models excel with reinforcement learning (RL), but fully
unlocking this potential requires a mid-training stage. An effective
mid-training phase should identify a compact set of useful actions and enable
fast selection among them through online RL. We formalize this intuition by
presenting the first theoretical result on how mid-training shapes
post-training: it characterizes an action subspace that minimizes both the
value approximation error from pruning and the RL error during subsequent
planning. Our analysis reveals two key determinants of mid-training
effectiveness: pruning efficiency, which shapes the prior of the initial RL
policy, and its impact on RL convergence, which governs the extent to which
that policy can be improved via online interactions. These results suggest that
mid-training is most effective when the decision space is compact and the
effective horizon is short, highlighting the importance of operating in the
space of action abstractions rather than primitive actions. Building on these
insights, we propose Reasoning as Action Abstractions (RA3), a scalable
mid-training algorithm. Specifically, we derive a sequential variational lower
bound and optimize it by iteratively discovering temporally-consistent latent
structures via RL, followed by fine-tuning on the bootstrapped data.
Experiments on code generation tasks demonstrate the effectiveness of our
approach. Across multiple base models, RA3 improves the average performance on
HumanEval and MBPP by 8 and 4 points over the base model and the next-token
prediction baseline. Furthermore, RA3 achieves faster convergence and higher
asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and
Codeforces.