Техническое исследование малых языковых моделей для рассуждений
A Technical Study into Small Reasoning Language Models
June 16, 2025
Авторы: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI
Аннотация
Постоянное развитие языковых моделей привело к созданию крупномасштабных архитектур, демонстрирующих исключительную производительность в широком спектре задач. Однако эти модели требуют значительных вычислительных ресурсов и энергии, а также могут вызывать проблемы с конфиденциальностью. В этом контексте малые языковые модели для рассуждений (Small Reasoning Language Models, SRLMs) с примерно 0,5 миллиардами параметров представляют собой привлекательную альтернативу благодаря их высокой вычислительной эффективности и экономичности, особенно в условиях ограниченных ресурсов. Несмотря на эти преимущества, ограниченная емкость моделей с 0,5 миллиардами параметров создает трудности при выполнении сложных задач, таких как математические рассуждения и генерация кода. Данное исследование изучает различные стратегии обучения, включая контролируемое тонкое настройку (supervised fine-tuning, SFT), дистилляцию знаний (knowledge distillation, KD) и обучение с подкреплением (reinforcement learning, RL), а также их гибридные реализации, с целью повышения производительности SRLMs с 0,5 миллиардами параметров. Мы анализируем эффективные методологии для сокращения разрыва в производительности между SRLMs и более крупными моделями и представляем рекомендации по оптимальным конвейерам обучения, адаптированным для этих меньших архитектур. Благодаря обширной экспериментальной проверке и анализу наша работа направлена на предоставление практических рекомендаций для максимизации способностей к рассуждению моделей с 0,5 миллиардами параметров.
English
The ongoing evolution of language models has led to the development of
large-scale architectures that demonstrate exceptional performance across a
wide range of tasks. However, these models come with significant computational
and energy demands, as well as potential privacy implications. In this context,
Small Reasoning Language Models (SRLMs) with approximately 0.5 billion
parameters present a compelling alternative due to their remarkable
computational efficiency and cost effectiveness, particularly in
resource-constrained environments. Despite these advantages, the limited
capacity of 0.5 billion parameter models poses challenges in handling complex
tasks such as mathematical reasoning and code generation. This research
investigates various training strategies, including supervised fine-tuning
(SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as
their hybrid implementations, to enhance the performance of 0.5B SRLMs. We
analyze effective methodologies to bridge the performance gap between SRLMS and
larger models and present insights into optimal training pipelines tailored for
these smaller architectures. Through extensive experimental validation and
analysis, our work aims to provide actionable recommendations for maximizing
the reasoning capabilities of 0.5B models.