LightReasoner : Les petits modèles de langage peuvent-ils enseigner le raisonnement aux grands modèles de langage ?
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
October 9, 2025
papers.authors: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré des progrès remarquables en matière de raisonnement, souvent grâce à un ajustement supervisé (SFT). Cependant, le SFT est gourmand en ressources, reposant sur de vastes ensembles de données soigneusement sélectionnés, des démonstrations échantillonnées par rejet, et une optimisation uniforme sur tous les tokens, bien qu'une seule fraction d'entre eux ait une valeur d'apprentissage significative. Dans ce travail, nous explorons une idée contre-intuitive : les petits modèles de langage (SLM) peuvent-ils enseigner aux grands modèles de langage (LLM) en révélant des moments de raisonnement à haute valeur qui reflètent la force unique de ces derniers ? Nous proposons LightReasoner, un cadre novateur qui exploite la divergence comportementale entre un modèle expert plus fort (LLM) et un modèle amateur plus faible (SLM). LightReasoner fonctionne en deux étapes : (1) une étape d'échantillonnage qui identifie les moments critiques de raisonnement et construit des exemples de supervision capturant l'avantage de l'expert grâce à un contraste expert-amateur, et (2) une étape d'ajustement qui aligne le modèle expert sur ces exemples distillés, amplifiant ainsi ses forces de raisonnement. Sur sept benchmarks mathématiques, LightReasoner améliore la précision jusqu'à 28,1 %, tout en réduisant la consommation de temps de 90 %, les problèmes échantillonnés de 80 %, et l'utilisation de tokens ajustés de 99 %, le tout sans recourir à des étiquettes de vérité terrain. En transformant les SLM plus faibles en signaux d'enseignement efficaces, LightReasoner offre une approche évolutive et économe en ressources pour faire progresser le raisonnement des LLM. Le code est disponible à l'adresse : https://github.com/HKUDS/LightReasoner
English
Large language models (LLMs) have demonstrated remarkable progress in
reasoning, often through supervised fine-tuning (SFT). However, SFT is
resource-intensive, relying on large curated datasets, rejection-sampled
demonstrations, and uniform optimization across all tokens, even though only a
fraction carry meaningful learning value. In this work, we explore a
counterintuitive idea: can smaller language models (SLMs) teach larger language
models (LLMs) by revealing high-value reasoning moments that reflect the
latter's unique strength? We propose LightReasoner, a novel framework that
leverages the behavioral divergence between a stronger expert model (LLM) and a
weaker amateur model (SLM). LightReasoner operates in two stages: (1) a
sampling stage that pinpoints critical reasoning moments and constructs
supervision examples capturing the expert's advantage through expert-amateur
contrast, and (2) a fine-tuning stage that aligns the expert model with these
distilled examples, amplifying its reasoning strengths. Across seven
mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while
reducing time consumption by 90%, sampled problems by 80%, and tuned token
usage by 99%, all without relying on ground-truth labels. By turning weaker
SLMs into effective teaching signals, LightReasoner offers a scalable and
resource-efficient approach for advancing LLM reasoning. Code is available at:
https://github.com/HKUDS/LightReasoner