Versterkend Leren via Zelfdistillatie

Samenvatting

Grote taalmodellen worden steeds vaker nageoefend met reinforcement learning in verifieerbare domeinen zoals code en wiskunde. Toch leren huidige methoden voor reinforcement learning met verifieerbare beloningen (RLVR) alleen van een scalaire uitkomstbeloning per poging, wat een ernstig credit-assignmentprobleem veroorzaakt. Veel verifieerbare omgevingen bieden eigenlijk rijke tekstuele feedback, zoals runtime-fouten of beoordelaarsevaluaties, die uitleggen waarom een poging mislukte. Wij formaliseren deze setting als reinforcement learning met rijke feedback en introduceren Self-Distillation Policy Optimization (SDPO), die getokeniseerde feedback omzet in een dicht leer signaal zonder externe leraar of expliciet beloningsmodel. SDPO behandelt het huidige model, geconditioneerd op feedback, als een zelf-leraar en distilleert diens feedback-geïnformeerde volgende-token-voorspellingen terug naar het beleid. Op deze manier benut SDPO het vermogen van het model om zijn eigen fouten retrospectief in-context te identificeren. Over wetenschappelijk redeneren, toolgebruik en competitief programmeren op LiveCodeBench v6 verbetert SDPO de steekproefficiëntie en eindnauwkeurigheid ten opzichte van sterke RLVR-baselines. Opmerkelijk is dat SDPO ook baseline-methoden overtreft in standaard RLVR-omgevingen die alleen scalaire feedback teruggeven, door succesvolle rollouts te gebruiken als impliciete feedback voor mislukte pogingen. Ten slotte versnelt het toepassen van SDPO op individuele vragen tijdens de testfase de ontdekking van oplossingen voor moeilijke binaire-beloningstaken, waarbij dezelfde ontdekkingskans wordt bereikt als bij best-of-k sampling of meerronde gesprekken met 3x minder pogingen.

English

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

Versterkend Leren via Zelfdistillatie

Reinforcement Learning via Self-Distillation

Samenvatting

Support