LightReasoner: Können kleine Sprachmodelle großen Sprachmodellen das Schlussfolgern beibringen?
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
October 9, 2025
papers.authors: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im Bereich des logischen Denkens gezeigt, oft durch überwachtes Feinabstimmen (SFT). Allerdings ist SFT ressourcenintensiv, da es auf großen, kuratierten Datensätzen, abgelehnten Demonstrationen und einer einheitlichen Optimierung über alle Tokens hinweg basiert, obwohl nur ein Bruchteil davon einen bedeutenden Lernwert trägt. In dieser Arbeit untersuchen wir eine kontraintuitive Idee: Können kleinere Sprachmodelle (SLMs) größere Sprachmodelle (LLMs) lehren, indem sie wertvolle Momente des logischen Denkens aufdecken, die die einzigartige Stärke der letzteren widerspiegeln? Wir stellen LightReasoner vor, ein neuartiges Framework, das die Verhaltensdivergenz zwischen einem stärkeren Expertenmodell (LLM) und einem schwächeren Amateurmodell (SLM) nutzt. LightReasoner arbeitet in zwei Phasen: (1) einer Sampling-Phase, die kritische Momente des logischen Denkens identifiziert und Überwachungsbeispiele konstruiert, die den Vorteil des Experten durch den Kontrast zwischen Experte und Amateur erfassen, und (2) einer Feinabstimmungsphase, die das Expertenmodell mit diesen destillierten Beispielen abstimmt und seine Stärken im logischen Denken verstärkt. Über sieben mathematische Benchmarks hinweg verbessert LightReasoner die Genauigkeit um bis zu 28,1 %, während es den Zeitaufwand um 90 %, die Anzahl der gesampelten Probleme um 80 % und die Verwendung abgestimmter Tokens um 99 % reduziert, alles ohne auf Ground-Truth-Labels angewiesen zu sein. Indem schwächere SLMs in effektive Lehrsignale verwandelt werden, bietet LightReasoner einen skalierbaren und ressourceneffizienten Ansatz zur Weiterentwicklung des logischen Denkens von LLMs. Der Code ist verfügbar unter: https://github.com/HKUDS/LightReasoner
English
Large language models (LLMs) have demonstrated remarkable progress in
reasoning, often through supervised fine-tuning (SFT). However, SFT is
resource-intensive, relying on large curated datasets, rejection-sampled
demonstrations, and uniform optimization across all tokens, even though only a
fraction carry meaningful learning value. In this work, we explore a
counterintuitive idea: can smaller language models (SLMs) teach larger language
models (LLMs) by revealing high-value reasoning moments that reflect the
latter's unique strength? We propose LightReasoner, a novel framework that
leverages the behavioral divergence between a stronger expert model (LLM) and a
weaker amateur model (SLM). LightReasoner operates in two stages: (1) a
sampling stage that pinpoints critical reasoning moments and constructs
supervision examples capturing the expert's advantage through expert-amateur
contrast, and (2) a fine-tuning stage that aligns the expert model with these
distilled examples, amplifying its reasoning strengths. Across seven
mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while
reducing time consumption by 90%, sampled problems by 80%, and tuned token
usage by 99%, all without relying on ground-truth labels. By turning weaker
SLMs into effective teaching signals, LightReasoner offers a scalable and
resource-efficient approach for advancing LLM reasoning. Code is available at:
https://github.com/HKUDS/LightReasoner