학생들의 추론 능력을 향상시키는 추론 궤적은 무엇인가? 정보적 정렬을 위한 간단한 지표
Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment
January 20, 2026
저자: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
초록
긴 사고 연쇄(CoT) 궤적은 교사 LLM에서 학생 LLM으로의 추론 과정을 압축하여 전수하는 데 풍부한 감독 신호를 제공합니다. 그러나 기존 연구와 우리의 실험 모두에서 더 강력한 교사의 궤적이 반드시 더 나은 학생 모델을 만들어내는 것은 아니며, 이는 증류 과정에서 데이터-학생 간 적합성의 중요성을 강조합니다. 기존 방법은 주로 학생 모델의 가능도를 통해 적합성을 평가하여, 모델의 현재 행동과 밀접하게 일치하는 궤적을 선호하지만 더 많은 정보를 제공하는 궤적은 간과해왔습니다. 이를 해결하기 위해 우리는 정렬도와 정보성을 모두 포착하여 추론 궤적의 적합성을 평가하는 간단한 지표인 순위-놀람 비율(RSR)을 제안합니다. RSR은 효과적인 궤적이 일반적으로 학생 모델 기준으로 낮은 절대 확률과 상대적으로 높은 순위의 토큰을 결합함으로써 학습 신호 강도와 행동 정렬 간의 균형을 이루는 관찰에 기반합니다. 구체적으로 RSR은 궤적의 평균 토큰 단위 순위를 평균 음의 로그 가능도로 나눈 값으로 정의되며, 계산과 해석이 직관적입니다. 5가지 학생 모델과 11가지 다양한 교사의 추론 궤적에 걸쳐 RSR은 훈련 후 성능과 높은 상관관계(평균 스피어만 상관계수 0.86)를 보여 기존 지표들을 능가했습니다. 우리는 또한 궤적 선택과 교사 선택이라는 두 가지 실제 적용 사례에서 RSR의 유용성을 추가로 입증합니다.
English
Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.