Verstärkendes Lernen durch Selbstdestillation

papers.abstract

Große Sprachmodelle werden zunehmend mit Verstärkungslernen in verifizierbaren Domänen wie Code und Mathematik nachtrainiert. Allerdings lernen aktuelle Methoden für Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) nur aus einem skalaren Ergebnis-Belohnungswert pro Versuch, was einen erheblichen Credit-Assignment-Flaschenhals verursacht. Viele verifizierbare Umgebungen liefern tatsächlich umfangreiches textuelles Feedback, wie Laufzeitfehler oder Bewertungen eines Judges, das erklärt, warum ein Versuch fehlgeschlagen ist. Wir formalisieren diesen Rahmen als Verstärkungslernen mit umfangreichem Feedback und führen Self-Distillation Policy Optimization (SDPO) ein, das tokenisiertes Feedback in ein dichtes Lernsignal umwandelt, ohne einen externen Lehrer oder ein explizites Belohnungsmodell. SDPO behandelt das aktuelle Modell, konditioniert auf Feedback, als einen Selbst-Lehrer und destilliert seine feedback-informierten Next-Token-Vorhersagen zurück in die Policy. Auf diese Weise nutzt SDPO die Fähigkeit des Modells, eigene Fehler im Kontext retrospektiv zu identifizieren. In wissenschaftlichem Reasoning, Werkzeugnutzung und kompetitiver Programmierung auf LiveCodeBench v6 verbessert SDPO die Stichprobeneffizienz und finale Genauigkeit gegenüber starken RLVR-Baselines. Bemerkenswerterweise übertrifft SDPO Baselines auch in standardmäßigen RLVR-Umgebungen, die nur skalares Feedback liefern, indem es erfolgreiche Rollouts als implizites Feedback für fehlgeschlagene Versuche nutzt. Schließlich beschleunigt die Anwendung von SDPO auf einzelne Fragen zur Testzeit die Entdeckung bei schwierigen Aufgaben mit binären Belohnungen und erreicht die gleiche Entdeckungswahrscheinlichkeit wie Best-of-k-Sampling oder Mehrfachdialoge mit dreimal weniger Versuchen.

English

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

Verstärkendes Lernen durch Selbstdestillation

Reinforcement Learning via Self-Distillation

papers.abstract

Support