Le rôle de l'alignement du feedback dans l'auto-distillation

Résumé

Conditionner un modèle de langage sur un contexte supplémentaire, tel qu'un retour sur une tentative précédente, améliore généralement ses réponses. L'auto-distillation entraîne le modèle à conserver cette amélioration lorsque le contexte est absent. La méthode fonctionne en faisant correspondre la distribution de sortie du modèle dans deux configurations : un étudiant qui ne voit que la question, et un auto-enseignant qui voit également le contexte. Ce que le modèle apprend dépend donc du contexte que reçoit l'auto-enseignant, pourtant la conception de ce contexte reste largement inexplorée. Nous étudions la conception du contexte pour l'auto-distillation en entraînant un solveur à partir d'un retour d'un critique figé. Nous comparons trois conditions : (i) une récompense binaire (GRPO), (ii) la solution de référence, et (iii) une critique étape par étape alignée sur la trace de raisonnement du solveur. La critique alignée sur les étapes produit les gains les plus importants, surpassant GRPO de 16,11 points et l'auto-distillation conditionnée par la solution de référence de 5,27 points (Avg@12). L'analyse des avantages par jeton en révèle la raison : le retour aligné sur les étapes cible uniquement les jetons où le raisonnement échoue, laissant intact le comportement correct. En revanche, le conditionnement sur la solution de référence pousse le modèle à modifier son comportement à chaque jeton (y compris les étapes correctes), car une dérivation alternative diffère inévitablement dans sa formulation et son approche. Cela suggère que l'alignement structurel entre le retour et le raisonnement du solveur est un facteur clé de l'efficacité de l'auto-distillation.

English

Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.