Lernen zu schlussfolgern unter Off-Policy-Anleitung
Learning to Reason under Off-Policy Guidance
April 21, 2025
Autoren: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) zeigen, dass anspruchsvolle Verhaltensweisen wie mehrstufiges Reasoning und Selbstreflexion durch Reinforcement Learning (RL) mit einfachen regelbasierten Belohnungen entstehen können. Allerdings sind bestehende Zero-RL-Ansätze inhärent „on-policy“, was das Lernen auf die eigenen Ausgaben eines Modells beschränkt und den Erwerb von Reasoning-Fähigkeiten über die anfänglichen Fähigkeiten hinaus verhindert. Wir stellen LUFFY (Learning to Reason Under oFF-policY Guidance) vor, ein Framework, das Zero-RL mit off-policy Reasoning-Spuren erweitert. LUFFY balanciert dynamisch Imitation und Exploration, indem es off-policy Demonstrationen mit on-policy Rollouts während des Trainings kombiniert. Besonders hervorzuheben ist unser Vorschlag des Policy Shaping durch regularisiertes Importance Sampling, um oberflächliche und starre Imitation während des gemischten Policy-Trainings zu vermeiden. Bemerkenswerterweise erzielt LUFFY einen durchschnittlichen Gewinn von über +7,0 Punkten über sechs mathematische Benchmarks hinweg und einen Vorteil von über +6,2 Punkten bei Out-of-Distribution-Aufgaben. Es übertrifft auch die auf Imitation basierende überwachte Feinabstimmung (SFT) deutlich, insbesondere in der Generalisierung. Analysen zeigen, dass LUFFY nicht nur effektiv imitiert, sondern auch über die Demonstrationen hinaus explorativ agiert, und bietet damit einen skalierbaren Weg, um generalisierbare Reasoning-Modelle mit off-policy Anleitung zu trainieren.
English
Recent advances in large reasoning models (LRMs) demonstrate that
sophisticated behaviors such as multi-step reasoning and self-reflection can
emerge via reinforcement learning (RL) with simple rule-based rewards. However,
existing zero-RL approaches are inherently ``on-policy'', limiting learning to
a model's own outputs and failing to acquire reasoning abilities beyond its
initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY
guidance), a framework that augments zero-RL with off-policy reasoning traces.
LUFFY dynamically balances imitation and exploration by combining off-policy
demonstrations with on-policy rollouts during training. Notably, we propose
policy shaping via regularized importance sampling to avoid superficial and
rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an
over +7.0 average gain across six math benchmarks and an advantage of over +6.2
points in out-of-distribution tasks. It also substantially surpasses
imitation-based supervised fine-tuning (SFT), particularly in generalization.
Analysis shows LUFFY not only imitates effectively but also explores beyond
demonstrations, offering a scalable path to train generalizable reasoning
models with off-policy guidance.Summary
AI-Generated Summary