Aprendiendo de los propios errores: Construcción de trayectorias micro-reflexivas aprendibles para la autodestilación

Resumen

La auto-destilación mejora el razonamiento en modelos de lenguaje grandes al utilizar las propias trayectorias del modelo como señal de entrenamiento, generalmente mediante una alineación implícita a nivel de logits que minimiza la divergencia KL hacia una distribución objetivo privilegiada. Sin embargo, dado que esta supervisión se genera mediante un muestreo no controlado, no proporciona un conocimiento diagnóstico sobre los errores específicos del modelo ni una orientación correctiva para sus patrones de fallo individuales. En consecuencia, el modelo aprende a imitar una distribución privilegiada en lugar de recibir correcciones detalladas que señalen dónde y por qué falla su razonamiento. En este artículo, proponemos la Optimización de Política Aumentada con Trayectorias (TAPO), que avanza la auto-destilación desde la alineación distribucional implícita hacia la construcción explícita de trayectorias. Durante el entrenamiento con RL, el modelo produce tanto trayectorias correctas como incorrectas ante la misma consulta, y TAPO aprovecha esta estructura contrastiva para construir correcciones micro-reflexivas: nuevas trayectorias de entrenamiento que retienen el razonamiento erróneo del modelo hasta el punto de fallo, para luego insertar un diagnóstico en lenguaje natural y un razonamiento corregido guiado por una referencia correcta del mismo grupo de muestreo. Dado que cada trayectoria está anclada en el propio prefijo y las soluciones del aprendiz, la señal correctiva preserva en mayor medida la distribución on-policy del modelo que la alineación posicional impuesta por los métodos basados en KL. Para integrar estas trayectorias, TAPO introduce una selección de candidatos consciente de la dificultad en el límite de capacidad del modelo y una estimación de ventaja desacoplada para prevenir la contaminación del gradiente. Los experimentos en AIME 2024, AIME 2025 y HMMT 2025 muestran que TAPO logra mejoras consistentes sobre GRPO bajo el mismo número de pasos de entrenamiento. Análisis adicionales demuestran que TAPO fortalece tanto el razonamiento de primera pasada como la efectividad de corrección de errores.

English

Self-distillation improves reasoning in large language models by using the model's own rollouts as training signal, typically through implicit logit-level alignment that minimizes KL divergence toward a privileged target distribution. However, because this supervision is generated via uncontrolled sampling, it provides no diagnostic insight into the model's specific errors or corrective guidance for its individual failure patterns. Consequently, the model learns to imitate a privileged distribution rather than receiving fine-grained corrections that pinpoint where and why its reasoning fails. In this paper, we propose Trajectory-Augmented Policy Optimization (TAPO), which advances self-distillation from implicit distributional alignment to explicit trajectory construction. During RL training, the model produces both correct and incorrect rollouts to the same query, and TAPO leverages this contrastive structure to construct micro-reflective corrections, new training trajectories that retain the model's erroneous reasoning up to the point of failure, then insert a natural-language diagnosis and corrected reasoning guided by a correct reference from the same sampling group. Since each trajectory is anchored in the learner's own prefix and solutions, the corrective signal preserves the model's on-policy distribution to a greater extent than the position-wise alignment imposed by KL-based methods. To integrate these trajectories, TAPO introduces difficulty-aware candidate selection at the model's capability boundary and decoupled advantage estimation to prevent gradient contamination. Experiments on AIME 2024, AIME 2025, and HMMT 2025 show that TAPO achieves consistent improvements over GRPO under the same number of training steps. Further analysis demonstrates that TAPO strengthens both first-pass reasoning and error-correction effectiveness.