사전 학습, 중간 학습, 강화 학습이 추론 언어 모델에 미치는 상호작용에 관한 연구
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
December 8, 2025
저자: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI
초록
최근 강화학습(RL) 기법을 적용함으로써 언어 모델의 추론 능력이 크게 향상된 사례들이 보고되었으나, 사후 훈련이 사전 훈련 단계에서 습득한 능력을 넘어서는 진정한 추론 능력의 확장을 가져오는지는 여전히 명확하지 않습니다. 근본적인 난제는 현대적 훈련 파이프라인에서의 통제 부재에 있습니다: 대규모 사전 훈련 코퍼스는 불투명하고, 중간 훈련 단계는 종종 충분히 분석되지 않으며, RL 목표는 모델의 알려지지 않은 사전 지식과 복잡하게 상호작용합니다. 이러한 모호함을 해결하기 위해, 우리는 사전 훈련, 중간 훈련, RL 기반 사후 훈련의 인과적 기여도를 분리하는 완전히 통제된 실험 프레임워크를 구축했습니다. 우리의 접근법은 명시적인 원자적 연산, 단계별 추론 경로의 구문 분석 가능성, 훈련 데이터 분포의 체계적 조작이 가능한 합성 추론 과제들을 활용합니다. 우리는 모델을 두 가지 축을 따라 평가합니다: 더 복잡한 조합에 대한 외삽 일반화 능력과 표면적 문맥 변화에 대한 맥락 일반화 능력입니다. 이 프레임워크를 통해 우리는 RL의 효과성에 대한 상반된 주장들을 조정합니다. 우리는 다음과 같이 보여줍니다: 1) RL은 사전 훈련이 충분한 향상 여지를 남겨두고, RL 데이터가 모델의 능력 한계(어렵지만 아직 불가능하지 않은 경계 영역의 과제)를 정확히 타겟팅할 때만 진정한 능력 향상(pass@128)을 생산합니다. 2) 맥락 일반화는 최소한이면서 충분한 사전 훈련 노출을 요구하며, 이후 RL은 이를 안정적으로 전이할 수 있습니다. 3) 중간 훈련은 고정된 컴퓨팅 자원 하에서 RL만 적용했을 때보다 성능을 크게 향상시키며, 훈련 파이프라인에서 중간 훈련의 핵심적이지만 제대로 탐구되지 않은 역할을 입증합니다. 4) 과정 수준 보상은 보상 해킹을 줄이고 추론의 정확도를 향상시킵니다. 종합적으로, 이러한 결과들은 사전 훈련, 중간 훈련, RL 간의 상호작용을 명확히 하여, 추론 언어 모델 훈련 전략을 이해하고 개선하기 위한 기초를 제공합니다.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.