Welke redeneertrajecten leren studenten beter te redeneren? Een eenvoudige maatstaf voor informatieve afstemming

Samenvatting

Lange chain-of-thought (CoT) trajecten bieden rijke supervisiesignalen voor het distilleren van redeneervaardigheden van teacher- naar student-LLM's. Zowel eerder onderzoek als onze eigen experimenten tonen echter aan dat trajecten van sterkere teachers niet noodzakelijk betere studenten opleveren, wat het belang van data-student geschiktheid bij distillatie benadrukt. Bestaande methoden beoordelen geschiktheid voornamelijk via de likelihood van de student, waarbij trajecten die nauw aansluiten bij het huidige gedrag van het model worden bevoordeeld, maar meer informatieve trajecten over het hoofd worden gezien. Om dit aan te pakken, stellen we de Rank-Surprisal Ratio (RSR) voor, een eenvoudige metriek die zowel alignment als informatiewaarde vastlegt om de geschiktheid van een redeneertraject te beoordelen. RSR is gemotiveerd door de observatie dat effectieve trajecten typisch een lage absolute waarschijnlijkheid combineren met relatief hoog gerangschikte tokens onder het studentmodel, waardoor een balans wordt gevonden tussen de sterkte van het leersignaal en gedragsalignment. Concreet wordt RSR gedefinieerd als de verhouding tussen de gemiddelde token-gewijze rangorde van een traject en zijn gemiddelde negatieve log-waarschijnlijkheid, en is eenvoudig te berekenen en te interpreteren. Over vijf studentmodellen en redeneertrajecten van 11 diverse teachers heen, correleert RSR sterk met de prestaties na training (gemiddelde Spearman 0.86), waarbij het bestaande metrieken overtreft. We tonen verder de praktische bruikbaarheid aan, zowel bij trajectselectie als bij teacherselectie.

English

Long chain-of-thought (CoT) trajectories provide rich supervision signals for distilling reasoning from teacher to student LLMs. However, both prior work and our experiments show that trajectories from stronger teachers do not necessarily yield better students, highlighting the importance of data-student suitability in distillation. Existing methods assess suitability primarily through student likelihood, favoring trajectories that closely align with the model's current behavior but overlooking more informative ones. Addressing this, we propose Rank-Surprisal Ratio (RSR), a simple metric that captures both alignment and informativeness to assess the suitability of a reasoning trajectory. RSR is motivated by the observation that effective trajectories typically combine low absolute probability with relatively high-ranked tokens under the student model, balancing learning signal strength and behavioral alignment. Concretely, RSR is defined as the ratio of a trajectory's average token-wise rank to its average negative log-likelihood, and is straightforward to compute and interpret. Across five student models and reasoning trajectories from 11 diverse teachers, RSR strongly correlates with post-training performance (average Spearman 0.86), outperforming existing metrics. We further demonstrate its practical utility in both trajectory selection and teacher selection.

Welke redeneertrajecten leren studenten beter te redeneren? Een eenvoudige maatstaf voor informatieve afstemming

Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment

Samenvatting

Support