Welche Denkpfade bringen Studierenden bei, besser zu schlussfolgern? Ein einfaches Maß für informative Ausrichtung
Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment
January 20, 2026
papers.authors: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
papers.abstract
Lange Chain-of-Thought (CoT)-Trajektorien liefern reichhaltige Aufsichtssignale für die Distillation von Reasoning-Fähigkeiten von Lehrer- zu Schüler-LLMs. Sowohl frühere Arbeiten als auch unsere Experimente zeigen jedoch, dass Trajektorien von stärkeren Lehrern nicht zwangsläufig bessere Schüler-Modelle hervorbringen, was die Bedeutung der Daten-Schüler-Kompatibilität bei der Distillation unterstreicht. Bestehende Methoden bewerten diese Kompatibilität hauptsächlich über die Likelihood des Schülers und begünstigen dabei Trajektorien, die eng mit dem aktuellen Verhalten des Modells übereinstimmen, jedoch informativeren Trajektorien übersehen. Um dieses Problem anzugehen, schlagen wir das Rank-Surprisal Ratio (RSR) vor, eine einfache Metrik, die sowohl Übereinstimmung als auch Informationsgehalt erfasst, um die Eignung einer Reasoning-Trajektorie zu bewerten. RSR ist motiviert durch die Beobachtung, dass effektive Trajektorien typischerweise eine niedrige absolute Wahrscheinlichkeit mit relativ hochrangigen Tokens unter dem Schüler-Modell kombinieren und so die Stärke des Lernsignals mit der Verhaltensübereinstimmung in Einklang bringen. Konkret ist RSR als das Verhältnis des durchschnittlichen tokenweisen Rangs einer Trajektorie zu ihrer durchschnittlichen negativen Log-Likelihood definiert, ist einfach zu berechnen und zu interpretieren. Über fünf Schüler-Modelle und Reasoning-Trajektorien von 11 verschiedenen Lehrern hinweg korreliert RSR stark mit der Leistung nach dem Training (durchschnittlicher Spearman-Koeffizient 0,86) und übertrifft dabei bestehende Metriken. Wir demonstrieren weiterhin seinen praktischen Nutzen sowohl bei der Trajektorienauswahl als auch bei der Lehrerauswahl.
English
Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.