Apprendimento del ragionamento con guida off-policy
Learning to Reason under Off-Policy Guidance
April 21, 2025
Autori: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI
Abstract
I recenti progressi nei modelli di ragionamento su larga scala (LRM) dimostrano che comportamenti sofisticati come il ragionamento a più passi e l'autoriflessione possono emergere attraverso l'apprendimento per rinforzo (RL) con ricompense basate su regole semplici. Tuttavia, gli approcci zero-RL esistenti sono intrinsecamente "on-policy", limitando l'apprendimento alle sole uscite del modello e impedendo l'acquisizione di capacità di ragionamento oltre le sue capacità iniziali. Introduciamo LUFFY (Learning to reason Under oFF-policY guidance), un framework che potenzia lo zero-RL con tracce di ragionamento off-policy. LUFFY bilancia dinamicamente imitazione ed esplorazione combinando dimostrazioni off-policy con rollout on-policy durante l'addestramento. In particolare, proponiamo il modellamento della policy tramite campionamento di importanza regolarizzato per evitare imitazioni superficiali e rigide durante l'addestramento con policy mista. Notevolmente, LUFFY ottiene un guadagno medio superiore a +7,0 su sei benchmark matematici e un vantaggio di oltre +6,2 punti in compiti fuori distribuzione. Supera inoltre sostanzialmente il fine-tuning supervisionato basato sull'imitazione (SFT), specialmente nella generalizzazione. L'analisi mostra che LUFFY non solo imita efficacemente, ma esplora anche oltre le dimostrazioni, offrendo un percorso scalabile per addestrare modelli di ragionamento generalizzabili con guida off-policy.
English
Recent advances in large reasoning models (LRMs) demonstrate that
sophisticated behaviors such as multi-step reasoning and self-reflection can
emerge via reinforcement learning (RL) with simple rule-based rewards. However,
existing zero-RL approaches are inherently ``on-policy'', limiting learning to
a model's own outputs and failing to acquire reasoning abilities beyond its
initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY
guidance), a framework that augments zero-RL with off-policy reasoning traces.
LUFFY dynamically balances imitation and exploration by combining off-policy
demonstrations with on-policy rollouts during training. Notably, we propose
policy shaping via regularized importance sampling to avoid superficial and
rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an
over +7.0 average gain across six math benchmarks and an advantage of over +6.2
points in out-of-distribution tasks. It also substantially surpasses
imitation-based supervised fine-tuning (SFT), particularly in generalization.
Analysis shows LUFFY not only imitates effectively but also explores beyond
demonstrations, offering a scalable path to train generalizable reasoning
models with off-policy guidance.Summary
AI-Generated Summary