확장 가능한 중간 훈련 강화 학습을 통한 행동 추상화로서의 추론 학습
Learning to Reason as Action Abstractions with Scalable Mid-Training RL
September 30, 2025
저자: Shenao Zhang, Donghan Yu, Yihao Feng, Bowen Jin, Zhaoran Wang, John Peebles, Zirui Wang
cs.AI
초록
대규모 언어 모델은 강화 학습(Reinforcement Learning, RL)에서 뛰어난 성능을 보이지만, 이러한 잠재력을 완전히 발휘하기 위해서는 중간 학습 단계가 필요합니다. 효과적인 중간 학습 단계는 유용한 행동들의 간결한 집합을 식별하고, 이를 통해 온라인 RL을 통해 빠르게 선택할 수 있도록 해야 합니다. 우리는 이러한 직관을 이론적으로 정형화하여 중간 학습이 사후 학습에 미치는 영향을 최초로 규명했습니다: 이는 가지치기(pruning)로 인한 가치 근사 오차와 이후 계획 단계에서의 RL 오차를 모두 최소화하는 행동 부분공간을 특성화합니다. 우리의 분석은 중간 학습의 효과성을 결정하는 두 가지 핵심 요소를 밝혀냈습니다: 가지치기 효율성은 초기 RL 정책의 사전 분포를 형성하며, RL 수렴에 미치는 영향은 온라인 상호작용을 통해 해당 정책을 얼마나 개선할 수 있는지를 결정합니다. 이러한 결과는 의사결정 공간이 간결하고 유효한 지평선이 짧을 때 중간 학습이 가장 효과적임을 시사하며, 원시 행동이 아닌 행동 추상화의 공간에서 작동하는 것의 중요성을 강조합니다. 이러한 통찰을 바탕으로, 우리는 확장 가능한 중간 학습 알고리즘인 '추론을 통한 행동 추상화(Reasoning as Action Abstractions, RA3)'를 제안합니다. 구체적으로, 우리는 순차적 변분 하한을 도출하고, RL을 통해 시간적으로 일관된 잠재 구조를 반복적으로 발견한 후, 부트스트랩된 데이터에 대한 미세 조정을 통해 이를 최적화합니다. 코드 생성 작업에 대한 실험은 우리의 접근법의 효과성을 입증합니다. 여러 기본 모델에 걸쳐, RA3는 HumanEval과 MBPP에서 기본 모델 및 다음 토큰 예측 기준선 대비 평균 성능을 각각 8점과 4점 향상시켰습니다. 또한, RA3는 HumanEval+, MBPP+, LiveCodeBench, Codeforces에서 RLVR에서 더 빠른 수렴과 더 높은 점근적 성능을 달성했습니다.
English
Large language models excel with reinforcement learning (RL), but fully
unlocking this potential requires a mid-training stage. An effective
mid-training phase should identify a compact set of useful actions and enable
fast selection among them through online RL. We formalize this intuition by
presenting the first theoretical result on how mid-training shapes
post-training: it characterizes an action subspace that minimizes both the
value approximation error from pruning and the RL error during subsequent
planning. Our analysis reveals two key determinants of mid-training
effectiveness: pruning efficiency, which shapes the prior of the initial RL
policy, and its impact on RL convergence, which governs the extent to which
that policy can be improved via online interactions. These results suggest that
mid-training is most effective when the decision space is compact and the
effective horizon is short, highlighting the importance of operating in the
space of action abstractions rather than primitive actions. Building on these
insights, we propose Reasoning as Action Abstractions (RA3), a scalable
mid-training algorithm. Specifically, we derive a sequential variational lower
bound and optimize it by iteratively discovering temporally-consistent latent
structures via RL, followed by fine-tuning on the bootstrapped data.
Experiments on code generation tasks demonstrate the effectiveness of our
approach. Across multiple base models, RA3 improves the average performance on
HumanEval and MBPP by 8 and 4 points over the base model and the next-token
prediction baseline. Furthermore, RA3 achieves faster convergence and higher
asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and
Codeforces.