LightReasoner: Können kleine Sprachmodelle großen Sprachmodellen das Schlussfolgern beibringen?

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im Bereich des logischen Denkens gezeigt, oft durch überwachtes Feinabstimmen (SFT). Allerdings ist SFT ressourcenintensiv, da es auf großen, kuratierten Datensätzen, abgelehnten Demonstrationen und einer einheitlichen Optimierung über alle Tokens hinweg basiert, obwohl nur ein Bruchteil davon einen bedeutenden Lernwert trägt. In dieser Arbeit untersuchen wir eine kontraintuitive Idee: Können kleinere Sprachmodelle (SLMs) größere Sprachmodelle (LLMs) lehren, indem sie wertvolle Momente des logischen Denkens aufdecken, die die einzigartige Stärke der letzteren widerspiegeln? Wir stellen LightReasoner vor, ein neuartiges Framework, das die Verhaltensdivergenz zwischen einem stärkeren Expertenmodell (LLM) und einem schwächeren Amateurmodell (SLM) nutzt. LightReasoner arbeitet in zwei Phasen: (1) einer Sampling-Phase, die kritische Momente des logischen Denkens identifiziert und Überwachungsbeispiele konstruiert, die den Vorteil des Experten durch den Kontrast zwischen Experte und Amateur erfassen, und (2) einer Feinabstimmungsphase, die das Expertenmodell mit diesen destillierten Beispielen abstimmt und seine Stärken im logischen Denken verstärkt. Über sieben mathematische Benchmarks hinweg verbessert LightReasoner die Genauigkeit um bis zu 28,1 %, während es den Zeitaufwand um 90 %, die Anzahl der gesampelten Probleme um 80 % und die Verwendung abgestimmter Tokens um 99 % reduziert, alles ohne auf Ground-Truth-Labels angewiesen zu sein. Indem schwächere SLMs in effektive Lehrsignale verwandelt werden, bietet LightReasoner einen skalierbaren und ressourceneffizienten Ansatz zur Weiterentwicklung des logischen Denkens von LLMs. Der Code ist verfügbar unter: https://github.com/HKUDS/LightReasoner

English

Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner

LightReasoner: Können kleine Sprachmodelle großen Sprachmodellen das Schlussfolgern beibringen?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

papers.abstract

Support