ChatPaper.aiChatPaper

小型推論言語モデルに関する技術的研究

A Technical Study into Small Reasoning Language Models

June 16, 2025
著者: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI

要旨

言語モデルの継続的な進化により、広範なタスクにおいて卓越した性能を示す大規模アーキテクチャが開発されてきた。しかし、これらのモデルは、多大な計算リソースとエネルギー消費を必要とするだけでなく、プライバシーに関する潜在的な問題も伴う。このような状況において、約5億パラメータを持つ小規模推論言語モデル(SRLMs)は、特にリソースが制約された環境において、その顕著な計算効率とコスト効率の高さから、魅力的な代替手段として注目されている。一方で、5億パラメータモデルの限られた容量は、数学的推論やコード生成などの複雑なタスクを扱う上で課題を引き起こす。本研究では、教師ありファインチューニング(SFT)、知識蒸留(KD)、強化学習(RL)、およびそれらのハイブリッド実装を含む様々な訓練戦略を調査し、5億パラメータSRLMsの性能向上を図る。SRLMsと大規模モデルとの性能差を埋めるための効果的な方法論を分析し、これらの小規模アーキテクチャに最適化された訓練パイプラインに関する洞察を提示する。広範な実験的検証と分析を通じて、本研究は5億パラメータモデルの推論能力を最大化するための実践的な提言を提供することを目指す。
English
The ongoing evolution of language models has led to the development of large-scale architectures that demonstrate exceptional performance across a wide range of tasks. However, these models come with significant computational and energy demands, as well as potential privacy implications. In this context, Small Reasoning Language Models (SRLMs) with approximately 0.5 billion parameters present a compelling alternative due to their remarkable computational efficiency and cost effectiveness, particularly in resource-constrained environments. Despite these advantages, the limited capacity of 0.5 billion parameter models poses challenges in handling complex tasks such as mathematical reasoning and code generation. This research investigates various training strategies, including supervised fine-tuning (SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as their hybrid implementations, to enhance the performance of 0.5B SRLMs. We analyze effective methodologies to bridge the performance gap between SRLMS and larger models and present insights into optimal training pipelines tailored for these smaller architectures. Through extensive experimental validation and analysis, our work aims to provide actionable recommendations for maximizing the reasoning capabilities of 0.5B models.
PDF84June 17, 2025