Обучение на собственных ошибках: построение обучаемых микро-рефлексивных траекторий для самодистилляции

Аннотация

Самодистилляция улучшает рассуждения в больших языковых моделях за счёт использования собственных прогонов модели в качестве обучающего сигнала, обычно посредством имплицитного выравнивания на уровне логитов, минимизирующего дивергенцию Кульбака–Лейблера относительно привилегированного целевого распределения. Однако, поскольку такое наблюдение генерируется с помощью неконтролируемой выборки, оно не даёт диагностического понимания конкретных ошибок модели или корректирующих указаний для её индивидуальных паттернов сбоев. В результате модель учится имитировать привилегированное распределение, вместо того чтобы получать тонкозернистые коррекции, указывающие, где и почему её рассуждения терпят неудачу. В этой статье мы предлагаем оптимизацию политики с дополнением траекториями (TAPO), которая переводит самодистилляцию от имплицитного выравнивания распределений к эксплицитному построению траекторий. Во время RL-обучения модель генерирует как правильные, так и неправильные прогоны для одного и того же запроса, и TAPO использует эту контрастную структуру для построения микрорефлексивных коррекций — новых обучающих траекторий, которые сохраняют ошибочные рассуждения модели до момента сбоя, а затем вставляют диагностику на естественном языке и исправленные рассуждения, направляемые правильным эталоном из той же группы выборки. Поскольку каждая траектория привязана к собственному префиксу и решениям обучающегося, корректирующий сигнал в большей степени сохраняет распределение, соответствующее текущей политике модели, чем по-позиционное выравнивание, накладываемое KL-методами. Для интеграции этих траекторий TAPO вводит отбор кандидатов с учётом сложности на границе возможностей модели и разделённую оценку преимущества, предотвращающую загрязнение градиента. Эксперименты на AIME 2024, AIME 2025 и HMMT 2025 показывают, что TAPO достигает устойчивых улучшений по сравнению с GRPO при одинаковом количестве шагов обучения. Дополнительный анализ демонстрирует, что TAPO усиливает как рассуждения первого прохода, так и эффективность исправления ошибок.

English

Self-distillation improves reasoning in large language models by using the model's own rollouts as training signal, typically through implicit logit-level alignment that minimizes KL divergence toward a privileged target distribution. However, because this supervision is generated via uncontrolled sampling, it provides no diagnostic insight into the model's specific errors or corrective guidance for its individual failure patterns. Consequently, the model learns to imitate a privileged distribution rather than receiving fine-grained corrections that pinpoint where and why its reasoning fails. In this paper, we propose Trajectory-Augmented Policy Optimization (TAPO), which advances self-distillation from implicit distributional alignment to explicit trajectory construction. During RL training, the model produces both correct and incorrect rollouts to the same query, and TAPO leverages this contrastive structure to construct micro-reflective corrections, new training trajectories that retain the model's erroneous reasoning up to the point of failure, then insert a natural-language diagnosis and corrected reasoning guided by a correct reference from the same sampling group. Since each trajectory is anchored in the learner's own prefix and solutions, the corrective signal preserves the model's on-policy distribution to a greater extent than the position-wise alignment imposed by KL-based methods. To integrate these trajectories, TAPO introduces difficulty-aware candidate selection at the model's capability boundary and decoupled advantage estimation to prevent gradient contamination. Experiments on AIME 2024, AIME 2025, and HMMT 2025 show that TAPO achieves consistent improvements over GRPO under the same number of training steps. Further analysis demonstrates that TAPO strengthens both first-pass reasoning and error-correction effectiveness.