Die Rolle der Feedback-Ausrichtung bei der Selbstdestillation

Zusammenfassung

Die Konditionierung eines Sprachmodells auf zusätzlichen Kontext, wie etwa Rückmeldungen zu einem vorherigen Versuch, verbessert typischerweise dessen Antwort. Selbstdestillation trainiert das Modell, diese Verbesserung beizubehalten, wenn der Kontext nicht vorhanden ist. Die Methode funktioniert, indem sie die Ausgabeverteilung des Modells unter zwei Einstellungen angleicht: einem Schüler, der nur die Frage sieht, und einem Selbstlehrer, der auch den Kontext sieht. Was das Modell lernt, hängt daher davon ab, welchen Kontext der Selbstlehrer erhält, doch die Gestaltung dieses Kontextes ist weitgehend unerforscht. Wir untersuchen die Kontextgestaltung für Selbstdestillation, indem wir einen Löser auf Rückmeldungen eines eingefrorenen Kritikers trainieren. Wir vergleichen drei Bedingungen: (i) eine binäre Belohnung (GRPO), (ii) die Referenzlösung und (iii) eine schrittweise ausgerichtete Kritik, die an die Argumentationsspur des Lösers angepasst ist. Die schrittweise ausgerichtete Kritik erzielt die größten Verbesserungen und übertrifft GRPO um 16,11 Punkte sowie die referenzlösungskonditionierte Selbstdestillation um 5,27 Punkte (Avg@12). Eine Vorteilsanalyse pro Token zeigt, warum: Schrittweise ausgerichtetes Feedback zielt nur auf die Tokens ab, bei denen die Argumentation fehlschlägt, und lässt korrektes Verhalten intakt. Die Konditionierung auf die Referenzlösung hingegen zwingt das Modell, sein Verhalten bei jedem Token zu ändern (selbst bei korrekten Schritten), da eine alternative Herleitung zwangsläufig in Formulierung und Ansatz abweicht. Dies deutet darauf hin, dass die strukturelle Ausrichtung zwischen Feedback und der Argumentation des Lösers ein entscheidender Faktor für die Wirksamkeit der Selbstdestillation ist.

English

Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.