ChatPaper.aiChatPaper

Aprendendo a Raciocinar sob Orientação Fora da Política

Learning to Reason under Off-Policy Guidance

April 21, 2025
Autores: Jianhao Yan, Yafu Li, Zican Hu, Zhi Wang, Ganqu Cui, Xiaoye Qu, Yu Cheng, Yue Zhang
cs.AI

Resumo

Avanços recentes em modelos de raciocínio de grande escala (LRMs) demonstram que comportamentos sofisticados, como raciocínio em múltiplas etapas e autorreflexão, podem emergir por meio de aprendizado por reforço (RL) com recompensas baseadas em regras simples. No entanto, as abordagens existentes de zero-RL são inerentemente "on-policy", limitando o aprendizado às próprias saídas do modelo e falhando em adquirir habilidades de raciocínio além de suas capacidades iniciais. Apresentamos o LUFFY (Learning to Reason Under oFF-policY Guidance), um framework que amplia o zero-RL com traços de raciocínio off-policy. O LUFFY equilibra dinamicamente imitação e exploração ao combinar demonstrações off-policy com rollouts on-policy durante o treinamento. Notavelmente, propomos o ajuste de políticas por meio de amostragem de importância regularizada para evitar imitação superficial e rígida durante o treinamento de políticas mistas. De forma impressionante, o LUFFY alcança um ganho médio de +7,0 em seis benchmarks matemáticos e uma vantagem de mais de +6,2 pontos em tarefas fora da distribuição. Ele também supera substancialmente o ajuste fino supervisionado baseado em imitação (SFT), particularmente na generalização. A análise mostra que o LUFFY não apenas imita de forma eficaz, mas também explora além das demonstrações, oferecendo um caminho escalável para treinar modelos de raciocínio generalizáveis com orientação off-policy.
English
Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.

Summary

AI-Generated Summary

PDF774April 22, 2025