LightReasoner: Могут ли малые языковые модели обучать крупные языковые модели рассуждению?
LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
October 9, 2025
Авторы: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют значительный прогресс в области рассуждений, часто благодаря обучению с учителем (SFT). Однако SFT требует значительных ресурсов, полагаясь на большие тщательно отобранные наборы данных, демонстрации, полученные методом отбора с отклонением, и равномерную оптимизацию всех токенов, хотя лишь небольшая их часть несет в себе значимую обучающую ценность. В данной работе мы исследуем контринтуитивную идею: могут ли меньшие языковые модели (SLM) обучать крупные языковые модели (LLM), выявляя ключевые моменты рассуждений, которые отражают уникальные сильные стороны последних? Мы предлагаем LightReasoner — новый фреймворк, который использует поведенческое расхождение между более сильной экспертной моделью (LLM) и более слабой любительской моделью (SLM). LightReasoner работает в два этапа: (1) этап выборки, на котором определяются критические моменты рассуждений и создаются обучающие примеры, фиксирующие преимущество эксперта через контраст между экспертом и любителем, и (2) этап тонкой настройки, на котором экспертная модель адаптируется к этим дистиллированным примерам, усиливая свои сильные стороны в рассуждениях. На семи математических бенчмарках LightReasoner повышает точность до 28,1%, одновременно сокращая время выполнения на 90%, количество решаемых задач на 80% и использование токенов для настройки на 99%, при этом не полагаясь на эталонные метки. Превращая слабые SLM в эффективные обучающие сигналы, LightReasoner предлагает масштабируемый и ресурсоэффективный подход для улучшения рассуждений LLM. Код доступен по адресу: https://github.com/HKUDS/LightReasoner.
English
Large language models (LLMs) have demonstrated remarkable progress in
reasoning, often through supervised fine-tuning (SFT). However, SFT is
resource-intensive, relying on large curated datasets, rejection-sampled
demonstrations, and uniform optimization across all tokens, even though only a
fraction carry meaningful learning value. In this work, we explore a
counterintuitive idea: can smaller language models (SLMs) teach larger language
models (LLMs) by revealing high-value reasoning moments that reflect the
latter's unique strength? We propose LightReasoner, a novel framework that
leverages the behavioral divergence between a stronger expert model (LLM) and a
weaker amateur model (SLM). LightReasoner operates in two stages: (1) a
sampling stage that pinpoints critical reasoning moments and constructs
supervision examples capturing the expert's advantage through expert-amateur
contrast, and (2) a fine-tuning stage that aligns the expert model with these
distilled examples, amplifying its reasoning strengths. Across seven
mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while
reducing time consumption by 90%, sampled problems by 80%, and tuned token
usage by 99%, all without relying on ground-truth labels. By turning weaker
SLMs into effective teaching signals, LightReasoner offers a scalable and
resource-efficient approach for advancing LLM reasoning. Code is available at:
https://github.com/HKUDS/LightReasoner