오프-폴리시 가이던스 하에서 추론 학습하기
Learning to Reason under Off-Policy Guidance
April 21, 2025
저자: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI
초록
최근 대규모 추론 모델(LRMs)의 발전은 다단계 추론 및 자기 반성과 같은 정교한 행동이 단순한 규칙 기반 보상과 강화 학습(RL)을 통해 나타날 수 있음을 보여줍니다. 그러나 기존의 제로-RL 접근법은 본질적으로 "온-폴리시" 방식으로 제한되어, 모델의 자체 출력에만 학습이 국한되고 초기 능력을 넘어서는 추론 능력을 획득하지 못합니다. 우리는 LUFFY(Learning to reason Under oFF-policY guidance)를 소개합니다. 이 프레임워크는 제로-RL에 오프-폴리시 추론 흔적을 추가합니다. LUFFY는 훈련 중 오프-폴리시 데모와 온-폴리시 롤아웃을 결합하여 모방과 탐색을 동적으로 균형 잡습니다. 특히, 혼합 정책 훈련 중 피상적이고 경직된 모방을 피하기 위해 정규화된 중요도 샘플링을 통한 정책 형성을 제안합니다. 주목할 만하게, LUFFY는 6개의 수학 벤치마크에서 평균 +7.0 이상의 이득을 달성하고, 분포 외 작업에서 +6.2점 이상의 우위를 보입니다. 또한, 특히 일반화에서 모방 기반 지도 미세 조정(SFT)을 크게 능가합니다. 분석 결과, LUFFY는 효과적으로 모방할 뿐만 아니라 데모를 넘어 탐색하며, 오프-폴리시 지도를 통해 일반화 가능한 추론 모델을 훈련하는 확장 가능한 경로를 제공합니다.
English
Recent advances in large reasoning models (LRMs) demonstrate that
sophisticated behaviors such as multi-step reasoning and self-reflection can
emerge via reinforcement learning (RL) with simple rule-based rewards. However,
existing zero-RL approaches are inherently ``on-policy'', limiting learning to
a model's own outputs and failing to acquire reasoning abilities beyond its
initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY
guidance), a framework that augments zero-RL with off-policy reasoning traces.
LUFFY dynamically balances imitation and exploration by combining off-policy
demonstrations with on-policy rollouts during training. Notably, we propose
policy shaping via regularized importance sampling to avoid superficial and
rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an
over +7.0 average gain across six math benchmarks and an advantage of over +6.2
points in out-of-distribution tasks. It also substantially surpasses
imitation-based supervised fine-tuning (SFT), particularly in generalization.
Analysis shows LUFFY not only imitates effectively but also explores beyond
demonstrations, offering a scalable path to train generalizable reasoning
models with off-policy guidance.Summary
AI-Generated Summary