ChatPaper.aiChatPaper

LightReasoner: Modelos de Linguagem Pequenos Podem Ensinar Raciocínio a Modelos de Linguagem Grandes?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

October 9, 2025
Autores: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado progresso notável em raciocínio, frequentemente por meio de ajuste fino supervisionado (SFT). No entanto, o SFT é intensivo em recursos, dependendo de grandes conjuntos de dados curados, demonstrações amostradas por rejeição e otimização uniforme em todos os tokens, mesmo que apenas uma fração deles carregue valor de aprendizado significativo. Neste trabalho, exploramos uma ideia contraintuitiva: modelos de linguagem menores (SLMs) podem ensinar modelos de linguagem maiores (LLMs) ao revelar momentos de raciocínio de alto valor que refletem a força única dos últimos? Propomos o LightReasoner, uma estrutura inovadora que aproveita a divergência comportamental entre um modelo especialista mais forte (LLM) e um modelo amador mais fraco (SLM). O LightReasoner opera em duas etapas: (1) uma etapa de amostragem que identifica momentos críticos de raciocínio e constrói exemplos de supervisão que capturam a vantagem do especialista por meio do contraste entre especialista e amador, e (2) uma etapa de ajuste fino que alinha o modelo especialista com esses exemplos destilados, amplificando seus pontos fortes de raciocínio. Em sete benchmarks matemáticos, o LightReasoner melhora a precisão em até 28,1%, enquanto reduz o consumo de tempo em 90%, os problemas amostrados em 80% e o uso de tokens ajustados em 99%, tudo isso sem depender de rótulos de verdade absoluta. Ao transformar SLMs mais fracos em sinais de ensino eficazes, o LightReasoner oferece uma abordagem escalável e eficiente em termos de recursos para avançar o raciocínio de LLMs. O código está disponível em: https://github.com/HKUDS/LightReasoner
English
Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner
PDF82October 13, 2025