LightReasoner: Kunnen kleine taalmodellen grote taalmodellen leren redeneren?
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
October 9, 2025
Auteurs: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in redeneren, vaak door middel van supervised fine-tuning (SFT). SFT is echter resource-intensief, omdat het afhankelijk is van grote, zorgvuldig samengestelde datasets, afgewezen demonstraties en uniforme optimalisatie over alle tokens, ook al draagt slechts een fractie daarvan betekenisvolle leerwaarde. In dit werk onderzoeken we een contra-intuïtief idee: kunnen kleinere taalmodellen (SLM's) grotere taalmodellen (LLM's) onderwijzen door hoogwaardige redeneermomenten te onthullen die de unieke kracht van de laatste weerspiegelen? We stellen LightReasoner voor, een nieuw raamwerk dat gebruikmaakt van het gedragsverschil tussen een sterker expertmodel (LLM) en een zwakker amateurmodel (SLM). LightReasoner werkt in twee fasen: (1) een bemonsteringsfase die cruciale redeneermomenten identificeert en supervisievoorbeelden construeert die het voordeel van de expert vastleggen door middel van expert-amateur contrast, en (2) een fine-tuningfase die het expertmodel afstemt op deze gedistilleerde voorbeelden, waardoor zijn redeneerkracht wordt versterkt. Over zeven wiskundige benchmarks verbetert LightReasoner de nauwkeurigheid met tot 28,1%, terwijl het tijdverbruik met 90%, bemonsterde problemen met 80% en het gebruik van getunede tokens met 99% wordt verminderd, allemaal zonder afhankelijk te zijn van grondwaarheid-labels. Door zwakkere SLM's om te zetten in effectieve leersignalen, biedt LightReasoner een schaalbare en resource-efficiënte aanpak voor het bevorderen van LLM-redeneren. Code is beschikbaar op: https://github.com/HKUDS/LightReasoner
English
Large language models (LLMs) have demonstrated remarkable progress in
reasoning, often through supervised fine-tuning (SFT). However, SFT is
resource-intensive, relying on large curated datasets, rejection-sampled
demonstrations, and uniform optimization across all tokens, even though only a
fraction carry meaningful learning value. In this work, we explore a
counterintuitive idea: can smaller language models (SLMs) teach larger language
models (LLMs) by revealing high-value reasoning moments that reflect the
latter's unique strength? We propose LightReasoner, a novel framework that
leverages the behavioral divergence between a stronger expert model (LLM) and a
weaker amateur model (SLM). LightReasoner operates in two stages: (1) a
sampling stage that pinpoints critical reasoning moments and constructs
supervision examples capturing the expert's advantage through expert-amateur
contrast, and (2) a fine-tuning stage that aligns the expert model with these
distilled examples, amplifying its reasoning strengths. Across seven
mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while
reducing time consumption by 90%, sampled problems by 80%, and tuned token
usage by 99%, all without relying on ground-truth labels. By turning weaker
SLMs into effective teaching signals, LightReasoner offers a scalable and
resource-efficient approach for advancing LLM reasoning. Code is available at:
https://github.com/HKUDS/LightReasoner