LightReasoner : Les petits modèles de langage peuvent-ils enseigner le raisonnement aux grands modèles de langage ?

papers.abstract

Les grands modèles de langage (LLM) ont démontré des progrès remarquables en matière de raisonnement, souvent grâce à un ajustement supervisé (SFT). Cependant, le SFT est gourmand en ressources, reposant sur de vastes ensembles de données soigneusement sélectionnés, des démonstrations échantillonnées par rejet, et une optimisation uniforme sur tous les tokens, bien qu'une seule fraction d'entre eux ait une valeur d'apprentissage significative. Dans ce travail, nous explorons une idée contre-intuitive : les petits modèles de langage (SLM) peuvent-ils enseigner aux grands modèles de langage (LLM) en révélant des moments de raisonnement à haute valeur qui reflètent la force unique de ces derniers ? Nous proposons LightReasoner, un cadre novateur qui exploite la divergence comportementale entre un modèle expert plus fort (LLM) et un modèle amateur plus faible (SLM). LightReasoner fonctionne en deux étapes : (1) une étape d'échantillonnage qui identifie les moments critiques de raisonnement et construit des exemples de supervision capturant l'avantage de l'expert grâce à un contraste expert-amateur, et (2) une étape d'ajustement qui aligne le modèle expert sur ces exemples distillés, amplifiant ainsi ses forces de raisonnement. Sur sept benchmarks mathématiques, LightReasoner améliore la précision jusqu'à 28,1 %, tout en réduisant la consommation de temps de 90 %, les problèmes échantillonnés de 80 %, et l'utilisation de tokens ajustés de 99 %, le tout sans recourir à des étiquettes de vérité terrain. En transformant les SLM plus faibles en signaux d'enseignement efficaces, LightReasoner offre une approche évolutive et économe en ressources pour faire progresser le raisonnement des LLM. Le code est disponible à l'adresse : https://github.com/HKUDS/LightReasoner

English

Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner

LightReasoner : Les petits modèles de langage peuvent-ils enseigner le raisonnement aux grands modèles de langage ?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

papers.abstract

Support