Quais Trajetórias de Raciocínio Ensinam os Alunos a Raciocinar Melhor? Uma Métrica Simples de Alinhamento Informativo

Resumo

Trajetórias longas de raciocínio em cadeia (CoT) fornecem sinais de supervisão ricos para destilar o raciocínio de modelos de linguagem grandes (LLMs) professores para alunos. No entanto, tanto trabalhos anteriores quanto nossos experimentos mostram que trajetórias de professores mais fortes não necessariamente produzem alunos melhores, destacando a importância da adequação entre os dados e o aluno na destilação. Os métodos existentes avaliam a adequação principalmente pela verossimilhança do aluno, favorecendo trajetórias que se alinham de perto com o comportamento atual do modelo, mas negligenciando outras mais informativas. Para resolver isso, propomos a *Razão de Surpresa por Classificação* (RSR), uma métrica simples que captura tanto o alinhamento quanto a informatividade para avaliar a adequação de uma trajetória de raciocínio. A RSR é motivada pela observação de que trajetórias eficazes normalmente combinam baixa probabilidade absoluta com *tokens* relativamente bem classificados sob o modelo do aluno, equilibrando a força do sinal de aprendizagem e o alinhamento comportamental. Concretamente, a RSR é definida como a razão entre a classificação média por *token* de uma trajetória e sua verossimilhança logarítmica negativa média, sendo simples de calcular e interpretar. Em cinco modelos alunos e trajetórias de raciocínio de 11 professores diversos, a RSR correlaciona-se fortemente com o desempenho pós-treinamento (Spearman médio de 0,86), superando métricas existentes. Demonstramos ainda sua utilidade prática tanto na seleção de trajetórias quanto na seleção de professores.

English

Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.