ChatPaper.aiChatPaper

Aprendizaje del razonamiento bajo guía fuera de la política

Learning to Reason under Off-Policy Guidance

April 21, 2025
Autores: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI

Resumen

Los avances recientes en los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) demuestran que comportamientos sofisticados, como el razonamiento de múltiples pasos y la autorreflexión, pueden surgir mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en reglas simples. Sin embargo, los enfoques existentes de RL cero son inherentemente "on-policy", lo que limita el aprendizaje a las propias salidas del modelo y no permite adquirir habilidades de razonamiento más allá de sus capacidades iniciales. Presentamos LUFFY (Learning to reason Under oFF-policY guidance), un marco que amplía el RL cero con trazas de razonamiento off-policy. LUFFY equilibra dinámicamente la imitación y la exploración al combinar demostraciones off-policy con rollouts on-policy durante el entrenamiento. Destacamos la propuesta de modelado de políticas mediante muestreo de importancia regularizado para evitar la imitación superficial y rígida durante el entrenamiento de políticas mixtas. Notablemente, LUFFY logra una mejora promedio de más de +7.0 en seis benchmarks matemáticos y una ventaja de más de +6.2 puntos en tareas fuera de distribución. Además, supera sustancialmente el ajuste fino supervisado (SFT, por sus siglas en inglés) basado en imitación, particularmente en generalización. El análisis muestra que LUFFY no solo imita de manera efectiva, sino que también explora más allá de las demostraciones, ofreciendo un camino escalable para entrenar modelos de razonamiento generalizables con guía off-policy.
English
Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.

Summary

AI-Generated Summary

PDF774April 22, 2025