LightReasoner: I Modelli Linguistici di Piccole Dimensioni Possono Insegnare il Ragionamento ai Modelli Linguistici di Grandi Dimensioni?
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
October 9, 2025
Autori: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato progressi significativi nel ragionamento, spesso attraverso il fine-tuning supervisionato (SFT). Tuttavia, il SFT è dispendioso in termini di risorse, poiché si basa su grandi dataset curati, dimostrazioni campionate per rifiuto e un'ottimizzazione uniforme su tutti i token, nonostante solo una frazione di essi abbia un reale valore di apprendimento. In questo lavoro, esploriamo un'idea controintuitiva: i modelli linguistici più piccoli (SLM) possono insegnare ai modelli linguistici più grandi (LLM) rivelando momenti di ragionamento ad alto valore che riflettono la forza unica di quest'ultimi? Proponiamo LightReasoner, un nuovo framework che sfrutta la divergenza comportamentale tra un modello esperto più forte (LLM) e un modello amatoriale più debole (SLM). LightReasoner opera in due fasi: (1) una fase di campionamento che individua i momenti critici di ragionamento e costruisce esempi di supervisione che catturano il vantaggio dell'esperto attraverso il contrasto esperto-amatoriale, e (2) una fase di fine-tuning che allinea il modello esperto con questi esempi distillati, amplificando le sue capacità di ragionamento. Su sette benchmark matematici, LightReasoner migliora l'accuratezza fino al 28,1%, riducendo il tempo di elaborazione del 90%, i problemi campionati dell'80% e l'uso di token ottimizzati del 99%, tutto senza fare affidamento su etichette di verità. Trasformando gli SLM più deboli in segnali di insegnamento efficaci, LightReasoner offre un approccio scalabile e efficiente in termini di risorse per migliorare il ragionamento degli LLM. Il codice è disponibile all'indirizzo: https://github.com/HKUDS/LightReasoner
English
Large language models (LLMs) have demonstrated remarkable progress in
reasoning, often through supervised fine-tuning (SFT). However, SFT is
resource-intensive, relying on large curated datasets, rejection-sampled
demonstrations, and uniform optimization across all tokens, even though only a
fraction carry meaningful learning value. In this work, we explore a
counterintuitive idea: can smaller language models (SLMs) teach larger language
models (LLMs) by revealing high-value reasoning moments that reflect the
latter's unique strength? We propose LightReasoner, a novel framework that
leverages the behavioral divergence between a stronger expert model (LLM) and a
weaker amateur model (SLM). LightReasoner operates in two stages: (1) a
sampling stage that pinpoints critical reasoning moments and constructs
supervision examples capturing the expert's advantage through expert-amateur
contrast, and (2) a fine-tuning stage that aligns the expert model with these
distilled examples, amplifying its reasoning strengths. Across seven
mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while
reducing time consumption by 90%, sampled problems by 80%, and tuned token
usage by 99%, all without relying on ground-truth labels. By turning weaker
SLMs into effective teaching signals, LightReasoner offers a scalable and
resource-efficient approach for advancing LLM reasoning. Code is available at:
https://github.com/HKUDS/LightReasoner