Apprentissage par Renforcement via Auto-Distillation

papers.abstract

Les grands modèles de langage sont de plus en plus affinés par apprentissage par renforcement dans des domaines vérifiables comme la programmation et les mathématiques. Pourtant, les méthodes actuelles d'apprentissage par renforcement avec récompenses vérifiables (RLVR) n'apprennent qu'à partir d'une récompense scalaire par tentative, créant un sévère goulot d'étranglement pour l'attribution de crédit. De nombreux environnements vérifiables fournissent en réalité un retour textuel riche, comme des erreurs d'exécution ou des évaluations de juge, qui expliquent pourquoi une tentative a échoué. Nous formalisons ce cadre comme l'apprentissage par renforcement avec retour riche et introduisons l'Optimisation de Politique par Auto-distillation (SDPO), qui convertit le retour tokenisé en un signal d'apprentissage dense sans aucun enseignant externe ou modèle de récompense explicite. SDPO traite le modèle actuel conditionné par le retour comme un auto-enseignant et distille ses prédictions de tokens suivants informées par le retour dans la politique. Ainsi, SDPO exploite la capacité du modèle à identifier rétrospectivement ses propres erreurs en contexte. Sur le raisonnement scientifique, l'utilisation d'outils et la programmation compétitive avec LiveCodeBench v6, SDPO améliore l'efficacité d'échantillonnage et la précision finale par rapport à des bases solides en RLVR. Notamment, SDPO surpasse également les bases dans des environnements RLVR standards qui ne renvoient qu'un retour scalaire, en utilisant les rollouts réussis comme retour implicite pour les tentatives échouées. Enfin, l'application de SDPO à des questions individuelles au moment du test accélère la découverte sur des tâches difficiles à récompense binaire, atteignant la même probabilité de découverte que l'échantillonnage best-of-k ou les conversations multi-tours avec 3 fois moins de tentatives.

English

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

Apprentissage par Renforcement via Auto-Distillation

Reinforcement Learning via Self-Distillation

papers.abstract

Support