Quali Percorsi di Ragionamento Insegnano agli Studenti a Ragionare Meglio? Una Metrica Semplice di Allineamento Informativo

Abstract

Le traiettorie di ragionamento a catena lunga (CoT) forniscono segnali di supervisione ricchi per distillare il ragionamento dai modelli linguistici insegnanti a quelli studenti. Tuttavia, sia i lavori precedenti che i nostri esperimenti mostrano che le traiettorie provenienti da insegnanti più potenti non necessariamente producono studenti migliori, evidenziando l'importanza dell'idoneità dei dati per lo studente nella distillazione. I metodi esistenti valutano l'idoneità principalmente attraverso la verosimiglianza dello studente, favorendo le traiettorie che si allineano strettamente al comportamento corrente del modello ma tralasciando quelle più informative. Per affrontare questo problema, proponiamo il *Rank-Surprisal Ratio* (RSR), una metrica semplice che cattura sia l'allineamento che l'informatività per valutare l'idoneità di una traiettoria di ragionamento. L'RSR è motivato dall'osservazione che le traiettorie efficaci tipicamente combinano una probabilità assoluta bassa con token relativamente ben posizionati sotto il modello studente, bilanciando la forza del segnale di apprendimento e l'allineamento comportamentale. Nello specifico, l'RSR è definito come il rapporto tra il rango medio (per token) di una traiettoria e la sua log-verosimiglianza negativa media, ed è semplice da calcolare e interpretare. Su cinque modelli studenti e traiettorie di ragionamento provenienti da 11 insegnanti diversi, l'RSR mostra una forte correlazione con le prestazioni post-addestramento (Spearman medio 0.86), superando le metriche esistenti. Ne dimostriamo inoltre l'utilità pratica sia nella selezione delle traiettorie che nella selezione dell'insegnante.

English

Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.

Quali Percorsi di Ragionamento Insegnano agli Studenti a Ragionare Meglio? Una Metrica Semplice di Allineamento Informativo

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

Abstract

Support