Lernen zu schlussfolgern unter Off-Policy-Anleitung

papers.abstract

Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) zeigen, dass anspruchsvolle Verhaltensweisen wie mehrstufiges Reasoning und Selbstreflexion durch Reinforcement Learning (RL) mit einfachen regelbasierten Belohnungen entstehen können. Allerdings sind bestehende Zero-RL-Ansätze inhärent „on-policy“, was das Lernen auf die eigenen Ausgaben eines Modells beschränkt und den Erwerb von Reasoning-Fähigkeiten über die anfänglichen Fähigkeiten hinaus verhindert. Wir stellen LUFFY (Learning to Reason Under oFF-policY Guidance) vor, ein Framework, das Zero-RL mit off-policy Reasoning-Spuren erweitert. LUFFY balanciert dynamisch Imitation und Exploration, indem es off-policy Demonstrationen mit on-policy Rollouts während des Trainings kombiniert. Besonders hervorzuheben ist unser Vorschlag des Policy Shaping durch regularisiertes Importance Sampling, um oberflächliche und starre Imitation während des gemischten Policy-Trainings zu vermeiden. Bemerkenswerterweise erzielt LUFFY einen durchschnittlichen Gewinn von über +7,0 Punkten über sechs mathematische Benchmarks hinweg und einen Vorteil von über +6,2 Punkten bei Out-of-Distribution-Aufgaben. Es übertrifft auch die auf Imitation basierende überwachte Feinabstimmung (SFT) deutlich, insbesondere in der Generalisierung. Analysen zeigen, dass LUFFY nicht nur effektiv imitiert, sondern auch über die Demonstrationen hinaus explorativ agiert, und bietet damit einen skalierbaren Weg, um generalisierbare Reasoning-Modelle mit off-policy Anleitung zu trainieren.

English

Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.

Lernen zu schlussfolgern unter Off-Policy-Anleitung

Learning to Reason under Off-Policy Guidance

papers.abstract

Support