Leren van eigen fouten: het construeren van leerbare micro-reflectieve trajecten voor zelfdestillatie

Samenvatting

Zelf-distillatie verbetert het redeneervermogen van grote taalmodellen door de eigen gegenereerde uitrolsequenties van het model als trainingssignaal te gebruiken, doorgaans via impliciete logit-niveau-afstemming die de KL-divergentie minimaliseert ten opzichte van een bevoorrechte doelverdeling. Omdat deze supervisie echter wordt gegenereerd via ongecontroleerde steekproeftrekking, biedt het geen diagnostisch inzicht in de specifieke fouten van het model of corrigerende richtlijnen voor de individuele faalpatronen. Hierdoor leert het model een bevoorrechte verdeling te imiteren in plaats van fijnmazige correcties te ontvangen die aangeven waar en waarom het redeneren faalt. In dit artikel stellen we Trajectory-Augmented Policy Optimization (TAPO) voor, die zelf-distillatie verschuift van impliciete distributie-afstemming naar expliciete trajectconstructie. Tijdens RL-training produceert het model zowel correcte als incorrecte uitrolsequenties voor dezelfde vraag, en TAPO benut deze contrastieve structuur om micro-reflectieve correcties te construeren: nieuwe trainingstrajecten die de foutieve redenering van het model behouden tot het punt van falen, en vervolgens een natuurlijk-talige diagnose en gecorrigeerde redenering invoegen, geleid door een correcte referentie uit dezelfde steekproefgroep. Omdat elk traject is verankerd in het eigen prefix en de eigen oplossingen van de lerende, behoudt het corrigerende signaal de on-policy-verdeling van het model in grotere mate dan de positiegewijze afstemming die door KL-gebaseerde methoden wordt opgelegd. Om deze trajecten te integreren, introduceert TAPO moeilijkheidsbewuste kandidaatselectie op de capaciteitsgrens van het model en ontkoppelde voordeelschatting om gradientverontreiniging te voorkomen. Experimenten op AIME 2024, AIME 2025 en HMMT 2025 tonen aan dat TAPO consistente verbeteringen behaalt ten opzichte van GRPO onder hetzelfde aantal trainingsstappen. Verdere analyse laat zien dat TAPO zowel het redeneren in eerste instantie als de effectiviteit van foutcorrectie versterkt.

English

Self-distillation improves reasoning in large language models by using the model's own rollouts as training signal, typically through implicit logit-level alignment that minimizes KL divergence toward a privileged target distribution. However, because this supervision is generated via uncontrolled sampling, it provides no diagnostic insight into the model's specific errors or corrective guidance for its individual failure patterns. Consequently, the model learns to imitate a privileged distribution rather than receiving fine-grained corrections that pinpoint where and why its reasoning fails. In this paper, we propose Trajectory-Augmented Policy Optimization (TAPO), which advances self-distillation from implicit distributional alignment to explicit trajectory construction. During RL training, the model produces both correct and incorrect rollouts to the same query, and TAPO leverages this contrastive structure to construct micro-reflective corrections, new training trajectories that retain the model's erroneous reasoning up to the point of failure, then insert a natural-language diagnosis and corrected reasoning guided by a correct reference from the same sampling group. Since each trajectory is anchored in the learner's own prefix and solutions, the corrective signal preserves the model's on-policy distribution to a greater extent than the position-wise alignment imposed by KL-based methods. To integrate these trajectories, TAPO introduces difficulty-aware candidate selection at the model's capability boundary and decoupled advantage estimation to prevent gradient contamination. Experiments on AIME 2024, AIME 2025, and HMMT 2025 show that TAPO achieves consistent improvements over GRPO under the same number of training steps. Further analysis demonstrates that TAPO strengthens both first-pass reasoning and error-correction effectiveness.