LightReasoner: I Modelli Linguistici di Piccole Dimensioni Possono Insegnare il Ragionamento ai Modelli Linguistici di Grandi Dimensioni?

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato progressi significativi nel ragionamento, spesso attraverso il fine-tuning supervisionato (SFT). Tuttavia, il SFT è dispendioso in termini di risorse, poiché si basa su grandi dataset curati, dimostrazioni campionate per rifiuto e un'ottimizzazione uniforme su tutti i token, nonostante solo una frazione di essi abbia un reale valore di apprendimento. In questo lavoro, esploriamo un'idea controintuitiva: i modelli linguistici più piccoli (SLM) possono insegnare ai modelli linguistici più grandi (LLM) rivelando momenti di ragionamento ad alto valore che riflettono la forza unica di quest'ultimi? Proponiamo LightReasoner, un nuovo framework che sfrutta la divergenza comportamentale tra un modello esperto più forte (LLM) e un modello amatoriale più debole (SLM). LightReasoner opera in due fasi: (1) una fase di campionamento che individua i momenti critici di ragionamento e costruisce esempi di supervisione che catturano il vantaggio dell'esperto attraverso il contrasto esperto-amatoriale, e (2) una fase di fine-tuning che allinea il modello esperto con questi esempi distillati, amplificando le sue capacità di ragionamento. Su sette benchmark matematici, LightReasoner migliora l'accuratezza fino al 28,1%, riducendo il tempo di elaborazione del 90%, i problemi campionati dell'80% e l'uso di token ottimizzati del 99%, tutto senza fare affidamento su etichette di verità. Trasformando gli SLM più deboli in segnali di insegnamento efficaci, LightReasoner offre un approccio scalabile e efficiente in termini di risorse per migliorare il ragionamento degli LLM. Il codice è disponibile all'indirizzo: https://github.com/HKUDS/LightReasoner

English

Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner

LightReasoner: I Modelli Linguistici di Piccole Dimensioni Possono Insegnare il Ragionamento ai Modelli Linguistici di Grandi Dimensioni?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

Abstract

Support