ChatPaper.aiChatPaper

¿Qué Trayectorias de Razonamiento Enseñan a los Estudiantes a Razonar Mejor? Una Métrica Sencilla de Alineación Informativa

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

January 20, 2026
Autores: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Resumen

Las trayectorias de razonamiento de cadena de pensamiento (CoT) largas proporcionan señales de supervisión ricas para destilar el razonamiento desde los LLMs maestros hacia los estudiantiles. Sin embargo, tanto trabajos previos como nuestros experimentos muestran que las trayectorias de maestros más potentes no necesariamente producen estudiantes mejores, lo que subraya la importancia de la idoneidad de los datos para el estudiante en la destilación. Los métodos existentes evalúan la idoneidad principalmente mediante la verosimilitud del estudiante, favoreciendo trayectorias que se alinean estrechamente con el comportamiento actual del modelo pero pasando por alto otras más informativas. Para abordar esto, proponemos la *Ratio de Sorpresa por Rango* (RSR, por sus siglas en inglés), una métrica simple que captura tanto la alineación como la informatividad para evaluar la idoneidad de una trayectoria de razonamiento. La RSR está motivada por la observación de que las trayectorias efectivas suelen combinar una probabilidad absoluta baja con tokens relativamente bien rankeados bajo el modelo estudiante, equilibrando la fuerza de la señal de aprendizaje y la alineación conductual. Concretamente, la RSR se define como la ratio entre el rango promedio por token de una trayectoria y su log-verosimilitud negativa promedio, y es sencilla de calcular e interpretar. En cinco modelos estudiantiles y trayectorias de razonamiento de 11 maestros diversos, la RSR se correlaciona fuertemente con el rendimiento posterior al entrenamiento (Spearman promedio de 0.86), superando a las métricas existentes. Además, demostramos su utilidad práctica tanto en la selección de trayectorias como en la selección de maestros.
English
Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.
PDF31January 22, 2026