Leren redeneren onder off-policy begeleiding
Learning to Reason under Off-Policy Guidance
April 21, 2025
Auteurs: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in grote redeneermodellen (LRMs) tonen aan dat geavanceerd gedrag zoals meerstaps redeneren en zelfreflectie kunnen ontstaan via reinforcement learning (RL) met eenvoudige, op regels gebaseerde beloningen. Bestaande zero-RL-benaderingen zijn echter inherent "on-policy", wat het leren beperkt tot de eigen uitvoer van een model en het verwerven van redeneervaardigheden buiten de initiële mogelijkheden belemmert. Wij introduceren LUFFY (Learning to Reason Under oFF-policY guidance), een raamwerk dat zero-RL versterkt met off-policy redeneersporen. LUFFY balanceert dynamisch imitatie en exploratie door off-policy demonstraties te combineren met on-policy rollouts tijdens de training. Opmerkelijk is dat we policy shaping voorstellen via gereguleerde importance sampling om oppervlakkige en rigide imitatie tijdens gemengd-policy training te voorkomen. LUFFY behaalt een gemiddelde winst van meer dan +7,0 over zes wiskundige benchmarks en een voordeel van meer dan +6,2 punten in taken buiten de distributie. Het overtreft ook aanzienlijk imitatiegebaseerde supervised fine-tuning (SFT), met name in generalisatie. Analyse toont aan dat LUFFY niet alleen effectief imiteert, maar ook verder gaat dan demonstraties, wat een schaalbare weg biedt om generaliseerbare redeneermodellen te trainen met off-policy begeleiding.
English
Recent advances in large reasoning models (LRMs) demonstrate that
sophisticated behaviors such as multi-step reasoning and self-reflection can
emerge via reinforcement learning (RL) with simple rule-based rewards. However,
existing zero-RL approaches are inherently ``on-policy'', limiting learning to
a model's own outputs and failing to acquire reasoning abilities beyond its
initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY
guidance), a framework that augments zero-RL with off-policy reasoning traces.
LUFFY dynamically balances imitation and exploration by combining off-policy
demonstrations with on-policy rollouts during training. Notably, we propose
policy shaping via regularized importance sampling to avoid superficial and
rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an
over +7.0 average gain across six math benchmarks and an advantage of over +6.2
points in out-of-distribution tasks. It also substantially surpasses
imitation-based supervised fine-tuning (SFT), particularly in generalization.
Analysis shows LUFFY not only imitates effectively but also explores beyond
demonstrations, offering a scalable path to train generalizable reasoning
models with off-policy guidance.Summary
AI-Generated Summary