Aus eigenen Fehlern lernen: Konstruktion von lernbaren mikro-reflexiven Trajektorien für die Selbst-Destillation

Zusammenfassung

Selbst-Destillation verbessert das Denken in großen Sprachmodellen, indem sie die eigenen Ausrollungen des Modells als Trainingssignal nutzt, typischerweise durch implizite Logit-Ebenen-Angleichung, die die KL-Divergenz in Richtung einer privilegierten Zielverteilung minimiert. Da diese Überwachung jedoch durch unkontrolliertes Sampling erzeugt wird, bietet sie weder diagnostische Einblicke in die spezifischen Fehler des Modells noch korrigierende Hinweise für dessen individuelle Fehlermuster. Folglich lernt das Modell, eine privilegierte Verteilung zu imitieren, anstatt feinkörnige Korrekturen zu erhalten, die genau zeigen, wo und warum sein Denken versagt. In diesem Papier schlagen wir die Trajektorien-angereicherte Politikoptimierung (TAPO) vor, die die Selbst-Destillation von impliziter Verteilungsangleichung zu expliziter Trajektorienkonstruktion weiterentwickelt. Während des RL-Trainings erzeugt das Modell sowohl korrekte als auch inkorrekte Ausrollungen zur selben Anfrage, und TAPO nutzt diese kontrastive Struktur, um mikroreflektive Korrekturen zu konstruieren – neue Trainings-Trajektorien, die das fehlerhafte Denken des Modells bis zum Fehlerpunkt beibehalten und dann eine Diagnose in natürlicher Sprache sowie ein korrigiertes Denken einfügen, das von einer korrekten Referenz aus derselben Stichprobengruppe geleitet wird. Da jede Trajektorie im eigenen Präfix und in den Lösungen des Lernenden verankert ist, bewahrt das korrigierende Signal die On-Policy-Verteilung des Modells in größerem Maße als die positionsweise Angleichung, die von KL-basierten Methoden auferlegt wird. Um diese Trajektorien zu integrieren, führt TAPO eine schwierigkeitsbewusste Kandidatenauswahl an der Fähigkeitsgrenze des Modells und eine entkoppelte Vorteilsschätzung ein, um Gradientenkontamination zu verhindern. Experimente mit AIME 2024, AIME 2025 und HMMT 2025 zeigen, dass TAPO unter gleicher Anzahl von Trainingsschritten konsistente Verbesserungen gegenüber GRPO erzielt. Weitere Analysen demonstrieren, dass TAPO sowohl das erstmalige Denken als auch die Wirksamkeit der Fehlerkorrektur stärkt.

English

Self-distillation improves reasoning in large language models by using the model's own rollouts as training signal, typically through implicit logit-level alignment that minimizes KL divergence toward a privileged target distribution. However, because this supervision is generated via uncontrolled sampling, it provides no diagnostic insight into the model's specific errors or corrective guidance for its individual failure patterns. Consequently, the model learns to imitate a privileged distribution rather than receiving fine-grained corrections that pinpoint where and why its reasoning fails. In this paper, we propose Trajectory-Augmented Policy Optimization (TAPO), which advances self-distillation from implicit distributional alignment to explicit trajectory construction. During RL training, the model produces both correct and incorrect rollouts to the same query, and TAPO leverages this contrastive structure to construct micro-reflective corrections, new training trajectories that retain the model's erroneous reasoning up to the point of failure, then insert a natural-language diagnosis and corrected reasoning guided by a correct reference from the same sampling group. Since each trajectory is anchored in the learner's own prefix and solutions, the corrective signal preserves the model's on-policy distribution to a greater extent than the position-wise alignment imposed by KL-based methods. To integrate these trajectories, TAPO introduces difficulty-aware candidate selection at the model's capability boundary and decoupled advantage estimation to prevent gradient contamination. Experiments on AIME 2024, AIME 2025, and HMMT 2025 show that TAPO achieves consistent improvements over GRPO under the same number of training steps. Further analysis demonstrates that TAPO strengthens both first-pass reasoning and error-correction effectiveness.