ChatPaper.aiChatPaper

LightReasoner: 小型言語モデルは大型言語モデルに推論を教えることができるか?

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

October 9, 2025
著者: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
cs.AI

要旨

大規模言語モデル(LLM)は、教師ありファインチューニング(SFT)を通じて、推論能力において顕著な進歩を示してきました。しかし、SFTはリソース集約的であり、大規模なキュレーションデータセット、リジェクトサンプリングされたデモンストレーション、そして全てのトークンにわたる均一な最適化に依存していますが、そのうち意味のある学習価値を持つのはごく一部に過ぎません。本研究では、直感に反するアイデアを探ります:より小規模な言語モデル(SLM)が、大規模言語モデル(LLM)の独自の強みを反映する高価値な推論の瞬間を明らかにすることで、LLMを教えることができるのか?我々は、LightReasonerという新しいフレームワークを提案します。このフレームワークは、より強力なエキスパートモデル(LLM)とより弱いアマチュアモデル(SLM)の間の行動の差異を活用します。LightReasonerは2つの段階で動作します:(1)エキスパートとアマチュアの対比を通じてエキスパートの優位性を捉えた監視例を構築し、重要な推論の瞬間を特定するサンプリング段階、(2)これらの蒸留された例にエキスパートモデルを合わせ、その推論の強みを増幅するファインチューニング段階です。7つの数学的ベンチマークにおいて、LightReasonerは精度を最大28.1%向上させ、時間消費を90%、サンプル問題を80%、チューニングトークンの使用量を99%削減し、すべてグラウンドトゥルースラベルに依存することなく達成しました。より弱いSLMを効果的な教育信号に変えることで、LightReasonerはLLMの推論を進歩させるためのスケーラブルでリソース効率の良いアプローチを提供します。コードは以下で利用可能です:https://github.com/HKUDS/LightReasoner
English
Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner
PDF82October 13, 2025