ChatPaper.aiChatPaper

LightReasoner: ¿Pueden los modelos de lenguaje pequeños enseñar razonamiento a los modelos de lenguaje grandes?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

October 9, 2025
Autores: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances notables en razonamiento, a menudo mediante ajuste fino supervisado (SFT). Sin embargo, el SFT es intensivo en recursos, ya que depende de grandes conjuntos de datos cuidadosamente seleccionados, demostraciones muestreadas por rechazo y una optimización uniforme en todos los tokens, a pesar de que solo una fracción de ellos tiene un valor de aprendizaje significativo. En este trabajo, exploramos una idea contraintuitiva: ¿pueden los modelos de lenguaje más pequeños (SLMs) enseñar a los modelos de lenguaje más grandes (LLMs) al revelar momentos de razonamiento de alto valor que reflejen la fortaleza única de estos últimos? Proponemos LightReasoner, un marco novedoso que aprovecha la divergencia conductual entre un modelo experto más fuerte (LLM) y un modelo amateur más débil (SLM). LightReasoner opera en dos etapas: (1) una etapa de muestreo que identifica momentos críticos de razonamiento y construye ejemplos de supervisión que capturan la ventaja del experto mediante el contraste experto-amateur, y (2) una etapa de ajuste fino que alinea el modelo experto con estos ejemplos destilados, amplificando sus fortalezas de razonamiento. En siete benchmarks matemáticos, LightReasoner mejora la precisión hasta en un 28,1%, mientras reduce el tiempo de consumo en un 90%, los problemas muestreados en un 80% y el uso de tokens ajustados en un 99%, todo ello sin depender de etiquetas de verdad absoluta. Al convertir SLMs más débiles en señales de enseñanza efectivas, LightReasoner ofrece un enfoque escalable y eficiente en recursos para avanzar en el razonamiento de los LLMs. El código está disponible en: https://github.com/HKUDS/LightReasoner.
English
Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner
PDF82October 13, 2025