Apprentissage du raisonnement sous guidance hors politique
Learning to Reason under Off-Policy Guidance
April 21, 2025
Auteurs: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI
Résumé
Les récents progrès dans les grands modèles de raisonnement (LRMs) démontrent que des comportements sophistiqués tels que le raisonnement multi-étapes et l'auto-réflexion peuvent émerger via l'apprentissage par renforcement (RL) avec des récompenses simples basées sur des règles. Cependant, les approches existantes de zéro-RL sont intrinsèquement « on-policy », limitant l'apprentissage aux sorties du modèle lui-même et empêchant l'acquisition de capacités de raisonnement au-delà de ses compétences initiales. Nous présentons LUFFY (Learning to reason Under oFF-policY guidance), un cadre qui enrichit le zéro-RL avec des traces de raisonnement off-policy. LUFFY équilibre dynamiquement l'imitation et l'exploration en combinant des démonstrations off-policy avec des déploiements on-policy pendant l'entraînement. Notamment, nous proposons le façonnage de politique via l'échantillonnage d'importance régularisé pour éviter une imitation superficielle et rigide pendant l'entraînement mixte. De manière remarquable, LUFFY obtient un gain moyen de plus de +7,0 sur six benchmarks mathématiques et un avantage de plus de +6,2 points dans des tâches hors distribution. Il surpasse également de manière significative le fine-tuning supervisé basé sur l'imitation (SFT), en particulier en généralisation. L'analyse montre que LUFFY non seulement imite efficacement, mais explore également au-delà des démonstrations, offrant une voie évolutive pour entraîner des modèles de raisonnement généralisables avec un guidage off-policy.
English
Recent advances in large reasoning models (LRMs) demonstrate that
sophisticated behaviors such as multi-step reasoning and self-reflection can
emerge via reinforcement learning (RL) with simple rule-based rewards. However,
existing zero-RL approaches are inherently ``on-policy'', limiting learning to
a model's own outputs and failing to acquire reasoning abilities beyond its
initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY
guidance), a framework that augments zero-RL with off-policy reasoning traces.
LUFFY dynamically balances imitation and exploration by combining off-policy
demonstrations with on-policy rollouts during training. Notably, we propose
policy shaping via regularized importance sampling to avoid superficial and
rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an
over +7.0 average gain across six math benchmarks and an advantage of over +6.2
points in out-of-distribution tasks. It also substantially surpasses
imitation-based supervised fine-tuning (SFT), particularly in generalization.
Analysis shows LUFFY not only imitates effectively but also explores beyond
demonstrations, offering a scalable path to train generalizable reasoning
models with off-policy guidance.Summary
AI-Generated Summary