Роль выравнивания обратной связи в самодистилляции

Аннотация

Обусловливание языковой модели дополнительным контекстом, например обратной связью по предыдущей попытке, обычно улучшает её ответ. Самодистилляция обучает модель сохранять это улучшение при отсутствии контекста. Метод работает путём согласования распределений выходных данных модели в двух режимах: ученик, который видит только вопрос, и самоучитель, который также видит контекст. Таким образом, то, чему модель обучается, зависит от того, какой контекст получает самоучитель, однако разработка этого контекста остаётся в значительной степени неизученной. Мы изучаем разработку контекста для самодистилляции, обучая решатель на обратной связи от замороженного критика. Мы сравниваем три условия: (i) бинарное вознаграждение (GRPO), (ii) эталонное решение и (iii) пошаговую критику, согласованную с цепочкой рассуждений решателя. Пошаговая критика даёт наибольший выигрыш, превосходя GRPO на 16,11 балла и самодистилляцию, обусловленную эталонным решением, на 5,27 балла (Avg@12). Потокенный анализ преимущества объясняет, почему это так: пошаговая обратная связь нацелена только на те токены, где рассуждение даёт сбой, оставляя корректное поведение нетронутым. Обусловливание эталонным решением, напротив, вынуждает модель изменять своё поведение на каждом токене (даже на правильных шагах), поскольку альтернативный вывод неизбежно отличается по формулировке и подходу. Это говорит о том, что структурное соответствие между обратной связью и рассуждением решателя является ключевым фактором эффективности самодистилляции.

English

Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.