ChatPaper.aiChatPaper

どの推論軌跡が学生の推論能力向上に寄与するか?情報的整合性に基づく簡易評価指標

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

January 20, 2026
著者: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

要旨

長い思考連鎖(CoT)軌跡は、教師から生徒LLMへ推論能力を蒸留するための豊富な教師信号を提供する。しかし、先行研究および我々の実験の両方が、より強力な教師からの軌跡が必ずしも優れた生徒モデルを生み出すわけではないことを示しており、蒸留におけるデータと生徒モデルの適合性の重要性を浮き彫りにしている。既存の手法は適合性を主に生徒モデルの尤度を通じて評価するが、これは現在のモデルの挙動に密接に沿った軌跡を優先し、より情報量の多い軌跡を見落としがちである。この問題に対処するため、我々はランク-驚愕比(RSR)を提案する。これは、推論軌跡の適合性を評価するために、整合性と情報量の両方を捉える単純な指標である。RSRは、効果的な軌跡が一般的に、生徒モデルにおいて絶対確率が低い一方でトークンの相対的ランクが比較的高いという観察に基づいており、学習信号の強度と挙動の整合性のバランスを取っている。具体的には、RSRは軌跡のトークン単位の平均ランクを平均負の対数尤度で割った比として定義され、計算と解釈が直感的である。5つの生徒モデルと11の多様な教師からの推論軌跡にわたる実験では、RSRは学習後の性能と強い相関(平均スピアマン相関係数0.86)を示し、既存の指標を凌駕した。さらに、軌跡選択と教師選択の両方における実用的有用性を実証する。
English
Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.
PDF31January 22, 2026