ChatPaper.aiChatPaper

Какие траектории рассуждений учат студентов рассуждать лучше? Простая метрика информативного соответствия

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

January 20, 2026
Авторы: Yuming Yang, Mingyoung Lai, Wanxu Zhao, Xiaoran Fan, Zhiheng Xi, Mingqi Wu, Chiyue Huang, Jun Zhao, Haijun Lv, Jian Tong, Yunhua Zhou, Yicheng Zou, Qipeng Guo, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Аннотация

Длинные цепочки рассуждений (CoT) предоставляют богатые сигналы обучения для дистилляции логического вывода от учителя к студенческим большим языковым моделям (LLM). Однако как предыдущие работы, так и наши эксперименты показывают, что траектории от более сильных учителей не обязательно приводят к лучшим студенческим моделям, что подчеркивает важность соответствия данных и студенческой модели при дистилляции. Существующие методы оценивают это соответствие в основном через правдоподобие студенческой модели, отдавая предпочтение траекториям, которые тесно согласуются с текущим поведением модели, но упуская из виду более информативные траектории. Для решения этой проблемы мы предлагаем **Rank-Surprisal Ratio (RSR)** — простой метрику, которая учитывает как соответствие, так и информативность для оценки пригодности траектории рассуждений. RSR мотивирован наблюдением, что эффективные траектории обычно сочетают низкую абсолютную вероятность с относительно высоким рангом токенов в студенческой модели, балансируя между силой обучающего сигнала и соответствием поведению. Конкретно, RSR определяется как отношение среднего покомпонентного ранга траектории к её среднему отрицательному логарифмическому правдоподобию, и его вычисление и интерпретация straightforward. На пяти студенческих моделях и траекториях рассуждений от 11 разнообразных учителей RSR демонстрирует сильную корреляцию с итоговой производительностью (средний коэффициент Спирмена 0.86), превосходя существующие метрики. Мы также демонстрируем его практическую полезность как для отбора траекторий, так и для выбора учителя.
English
Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.
PDF31January 22, 2026