Aprendendo a Raciocinar sob Orientação Fora da PolíticaLearning to Reason under Off-Policy Guidance
Avanços recentes em modelos de raciocínio de grande escala (LRMs) demonstram que comportamentos sofisticados, como raciocínio em múltiplas etapas e autorreflexão, podem emergir por meio de aprendizado por reforço (RL) com recompensas baseadas em regras simples. No entanto, as abordagens existentes de zero-RL são inerentemente "on-policy", limitando o aprendizado às próprias saídas do modelo e falhando em adquirir habilidades de raciocínio além de suas capacidades iniciais. Apresentamos o LUFFY (Learning to Reason Under oFF-policY Guidance), um framework que amplia o zero-RL com traços de raciocínio off-policy. O LUFFY equilibra dinamicamente imitação e exploração ao combinar demonstrações off-policy com rollouts on-policy durante o treinamento. Notavelmente, propomos o ajuste de políticas por meio de amostragem de importância regularizada para evitar imitação superficial e rígida durante o treinamento de políticas mistas. De forma impressionante, o LUFFY alcança um ganho médio de +7,0 em seis benchmarks matemáticos e uma vantagem de mais de +6,2 pontos em tarefas fora da distribuição. Ele também supera substancialmente o ajuste fino supervisionado baseado em imitação (SFT), particularmente na generalização. A análise mostra que o LUFFY não apenas imita de forma eficaz, mas também explora além das demonstrações, oferecendo um caminho escalável para treinar modelos de raciocínio generalizáveis com orientação off-policy.