ChatPaper.aiChatPaper

Quelles trajectoires de raisonnement enseignent aux étudiants à mieux raisonner ? Une métrique simple de l'alignement informatif

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

January 20, 2026
papers.authors: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

papers.abstract

Les trajectoires de raisonnement en chaîne (CoT) fournissent un signal de supervision riche pour distiller le raisonnement des grands modèles de langage (LLM) enseignants vers les étudiants. Cependant, les travaux antérieurs et nos propres expériences montrent que les trajectoires provenant d'enseignants plus performants ne produisent pas nécessairement de meilleurs étudiants, soulignant l'importance de l'adéquation entre les données et l'étudiant dans la distillation. Les méthodes existantes évaluent principalement cette adéquation par la vraisemblance de l'étudiant, favorisant les trajectoires qui correspondent étroitement au comportement actuel du modèle mais négligeant celles qui sont plus informatives. Pour résoudre ce problème, nous proposons le Ratio Rang-Surprise (RSR), une métrique simple qui capture à la fois l'alignement et le caractère informatif pour évaluer la pertinence d'une trajectoire de raisonnement. RSR est motivé par l'observation que les trajectoires efficaces combinent généralement une probabilité absolue faible avec des tokens relativement bien classés sous le modèle étudiant, équilibrant ainsi la force du signal d'apprentissage et l'alignement comportemental. Concrètement, RSR est défini comme le ratio entre le rang moyen token par token d'une trajectoire et sa log-vraisemblance négative moyenne, et est simple à calculer et à interpréter. Sur cinq modèles étudiants et des trajectoires de raisonnement provenant de 11 enseignants diversifiés, RSR présente une forte corrélation avec les performances post-entraînement (Spearman moyen de 0,86), surpassant les métriques existantes. Nous démontrons en outre son utilité pratique à la fois pour la sélection des trajectoires et la sélection des enseignants.
English
Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.
PDF31January 22, 2026