ChatPaper.aiChatPaper

LightReasoner: Могут ли малые языковые модели обучать крупные языковые модели рассуждению?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

October 9, 2025
Авторы: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют значительный прогресс в области рассуждений, часто благодаря обучению с учителем (SFT). Однако SFT требует значительных ресурсов, полагаясь на большие тщательно отобранные наборы данных, демонстрации, полученные методом отбора с отклонением, и равномерную оптимизацию всех токенов, хотя лишь небольшая их часть несет в себе значимую обучающую ценность. В данной работе мы исследуем контринтуитивную идею: могут ли меньшие языковые модели (SLM) обучать крупные языковые модели (LLM), выявляя ключевые моменты рассуждений, которые отражают уникальные сильные стороны последних? Мы предлагаем LightReasoner — новый фреймворк, который использует поведенческое расхождение между более сильной экспертной моделью (LLM) и более слабой любительской моделью (SLM). LightReasoner работает в два этапа: (1) этап выборки, на котором определяются критические моменты рассуждений и создаются обучающие примеры, фиксирующие преимущество эксперта через контраст между экспертом и любителем, и (2) этап тонкой настройки, на котором экспертная модель адаптируется к этим дистиллированным примерам, усиливая свои сильные стороны в рассуждениях. На семи математических бенчмарках LightReasoner повышает точность до 28,1%, одновременно сокращая время выполнения на 90%, количество решаемых задач на 80% и использование токенов для настройки на 99%, при этом не полагаясь на эталонные метки. Превращая слабые SLM в эффективные обучающие сигналы, LightReasoner предлагает масштабируемый и ресурсоэффективный подход для улучшения рассуждений LLM. Код доступен по адресу: https://github.com/HKUDS/LightReasoner.
English
Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner
PDF82October 13, 2025