Aprendendo a Raciocinar sob Orientação Fora da Política

Resumo

Avanços recentes em modelos de raciocínio de grande escala (LRMs) demonstram que comportamentos sofisticados, como raciocínio em múltiplas etapas e autorreflexão, podem emergir por meio de aprendizado por reforço (RL) com recompensas baseadas em regras simples. No entanto, as abordagens existentes de zero-RL são inerentemente "on-policy", limitando o aprendizado às próprias saídas do modelo e falhando em adquirir habilidades de raciocínio além de suas capacidades iniciais. Apresentamos o LUFFY (Learning to Reason Under oFF-policY Guidance), um framework que amplia o zero-RL com traços de raciocínio off-policy. O LUFFY equilibra dinamicamente imitação e exploração ao combinar demonstrações off-policy com rollouts on-policy durante o treinamento. Notavelmente, propomos o ajuste de políticas por meio de amostragem de importância regularizada para evitar imitação superficial e rígida durante o treinamento de políticas mistas. De forma impressionante, o LUFFY alcança um ganho médio de +7,0 em seis benchmarks matemáticos e uma vantagem de mais de +6,2 pontos em tarefas fora da distribuição. Ele também supera substancialmente o ajuste fino supervisionado baseado em imitação (SFT), particularmente na generalização. A análise mostra que o LUFFY não apenas imita de forma eficaz, mas também explora além das demonstrações, oferecendo um caminho escalável para treinar modelos de raciocínio generalizáveis com orientação off-policy.

English

Recent advances in large reasoning models (LRMs) demonstrate that sophisticated behaviors such as multi-step reasoning and self-reflection can emerge via reinforcement learning (RL) with simple rule-based rewards. However, existing zero-RL approaches are inherently ``on-policy'', limiting learning to a model's own outputs and failing to acquire reasoning abilities beyond its initial capabilities. We introduce LUFFY (Learning to reason Under oFF-policY guidance), a framework that augments zero-RL with off-policy reasoning traces. LUFFY dynamically balances imitation and exploration by combining off-policy demonstrations with on-policy rollouts during training. Notably, we propose policy shaping via regularized importance sampling to avoid superficial and rigid imitation during mixed-policy training. Remarkably, LUFFY achieves an over +7.0 average gain across six math benchmarks and an advantage of over +6.2 points in out-of-distribution tasks. It also substantially surpasses imitation-based supervised fine-tuning (SFT), particularly in generalization. Analysis shows LUFFY not only imitates effectively but also explores beyond demonstrations, offering a scalable path to train generalizable reasoning models with off-policy guidance.

Aprendendo a Raciocinar sob Orientação Fora da Política

Learning to Reason under Off-Policy Guidance

Resumo

Summary

Support

Support