El rol de la alineación de retroalimentación en la auto-destilación

Resumen

Condicionar un modelo de lenguaje con contexto adicional, como la retroalimentación sobre un intento previo, típicamente mejora su respuesta. La autodestilación entrena al modelo para retener esta mejora cuando el contexto no está presente. El método funciona igualando la distribución de salida del modelo bajo dos configuraciones: un estudiante que solo ve la pregunta, y un automaestro que también ve el contexto. Por lo tanto, lo que el modelo aprende depende de qué contexto recibe el automaestro, pero el diseño de este contexto permanece en gran medida inexplorado. Estudiamos el diseño del contexto para la autodestilación entrenando un solucionador con retroalimentación de un crítico congelado. Comparamos tres condiciones: (i) una recompensa binaria (GRPO), (ii) la solución de referencia, y (iii) una crítica alineada por pasos con la traza de razonamiento del solucionador. La crítica alineada por pasos produce las mayores ganancias, superando a GRPO por 16.11 puntos y a la autodestilación condicionada por solución de referencia por 5.27 puntos (Avg@12). El análisis de ventaja por token revela por qué: la retroalimentación alineada por pasos se dirige solo a los tokens donde falla el razonamiento, dejando intacto el comportamiento correcto. Condicionar con la solución de referencia, por el contrario, presiona al modelo a cambiar su comportamiento en cada token (incluso pasos correctos) porque una derivación alternativa inevitablemente difiere en redacción y enfoque. Esto sugiere que la alineación estructural entre la retroalimentación y el razonamiento del solucionador es un factor clave de la efectividad de la autodestilación.

English

Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.