Aprendizado por Reforço via Auto-Distilação

Resumo

Os modelos de linguagem de grande escala estão cada vez mais a ser submetidos a pós-treinamento com aprendizagem por reforço em domínios verificáveis, como código e matemática. No entanto, os métodos atuais para aprendizagem por reforço com recompensas verificáveis (RLVR) aprendem apenas a partir de uma recompensa escalar de resultado por tentativa, criando um severo estrangulamento no problema de atribuição de crédito. Muitos ambientes verificáveis fornecem, na verdade, *feedback* textual rico, como erros de execução ou avaliações de juízes, que explicam o porquê de uma tentativa ter falhado. Nós formalizamos este cenário como aprendizagem por reforço com *feedback* rico e introduzimos a Otimização de Política por Auto-Destilação (SDPO), que converte o *feedback* tokenizado num sinal de aprendizagem denso, sem qualquer professor externo ou modelo de recompensa explícito. A SDPO trata o modelo atual, condicionado ao *feedback*, como um auto-professor e destila as suas previsões de *tokens* seguintes, informadas pelo *feedback*, de volta para a política. Desta forma, a SDPO aproveita a capacidade do modelo para identificar retrospetivamente os seus próprios erros em contexto. Em raciocínio científico, uso de ferramentas e programação competitiva no LiveCodeBench v6, a SDPO melhora a eficiência amostral e a precisão final em comparação com fortes linhas de base de RLVR. Notavelmente, a SDPO também supera as linhas de base em ambientes padrão de RLVR que apenas retornam *feedback* escalar, utilizando *rollouts* bem-sucedidos como *feedback* implícito para tentativas falhadas. Por fim, aplicar a SDPO a questões individuais em tempo de teste acelera a descoberta em tarefas difíceis com recompensa binária, alcançando a mesma probabilidade de descoberta que a amostragem *best-of-k* ou conversas multi-turno com 3 vezes menos tentativas.

English

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

Aprendizado por Reforço via Auto-Distilação

Reinforcement Learning via Self-Distillation

Resumo

Support