Lernen zu schlussfolgern unter Off-Policy-AnleitungLearning to Reason under Off-Policy Guidance
Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) zeigen, dass anspruchsvolle Verhaltensweisen wie mehrstufiges Reasoning und Selbstreflexion durch Reinforcement Learning (RL) mit einfachen regelbasierten Belohnungen entstehen können. Allerdings sind bestehende Zero-RL-Ansätze inhärent „on-policy“, was das Lernen auf die eigenen Ausgaben eines Modells beschränkt und den Erwerb von Reasoning-Fähigkeiten über die anfänglichen Fähigkeiten hinaus verhindert. Wir stellen LUFFY (Learning to Reason Under oFF-policY Guidance) vor, ein Framework, das Zero-RL mit off-policy Reasoning-Spuren erweitert. LUFFY balanciert dynamisch Imitation und Exploration, indem es off-policy Demonstrationen mit on-policy Rollouts während des Trainings kombiniert. Besonders hervorzuheben ist unser Vorschlag des Policy Shaping durch regularisiertes Importance Sampling, um oberflächliche und starre Imitation während des gemischten Policy-Trainings zu vermeiden. Bemerkenswerterweise erzielt LUFFY einen durchschnittlichen Gewinn von über +7,0 Punkten über sechs mathematische Benchmarks hinweg und einen Vorteil von über +6,2 Punkten bei Out-of-Distribution-Aufgaben. Es übertrifft auch die auf Imitation basierende überwachte Feinabstimmung (SFT) deutlich, insbesondere in der Generalisierung. Analysen zeigen, dass LUFFY nicht nur effektiv imitiert, sondern auch über die Demonstrationen hinaus explorativ agiert, und bietet damit einen skalierbaren Weg, um generalisierbare Reasoning-Modelle mit off-policy Anleitung zu trainieren.