소형 추론 언어 모델에 대한 기술적 연구
A Technical Study into Small Reasoning Language Models
June 16, 2025
저자: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI
초록
언어 모델의 지속적인 진화는 다양한 작업에서 탁월한 성능을 보이는 대규모 아키텍처의 개발로 이어졌습니다. 그러나 이러한 모델은 상당한 계산 및 에너지 요구량과 함께 잠재적인 개인정보 보호 문제를 동반합니다. 이러한 맥락에서, 약 5억 개의 파라미터를 가진 소형 추론 언어 모델(SRLM)은 특히 자원이 제한된 환경에서 놀라운 계산 효율성과 비용 효율성으로 인해 매력적인 대안으로 부상하고 있습니다. 이러한 장점에도 불구하고, 5억 파라미터 모델의 제한된 용량은 수학적 추론 및 코드 생성과 같은 복잡한 작업을 처리하는 데 있어 어려움을 야기합니다. 본 연구는 5억 파라미터 SRLM의 성능을 향상시키기 위해 지도 미세 조정(SFT), 지식 증류(KD), 강화 학습(RL) 및 이들의 하이브리드 구현을 포함한 다양한 훈련 전략을 조사합니다. 우리는 SRLM과 더 큰 모델 간의 성능 격차를 줄이기 위한 효과적인 방법론을 분석하고, 이러한 소형 아키텍처에 맞춤화된 최적의 훈련 파이프라인에 대한 통찰을 제시합니다. 광범위한 실험적 검증과 분석을 통해, 본 연구는 5억 파라미터 모델의 추론 능력을 극대화하기 위한 실행 가능한 권장 사항을 제공하는 것을 목표로 합니다.
English
The ongoing evolution of language models has led to the development of
large-scale architectures that demonstrate exceptional performance across a
wide range of tasks. However, these models come with significant computational
and energy demands, as well as potential privacy implications. In this context,
Small Reasoning Language Models (SRLMs) with approximately 0.5 billion
parameters present a compelling alternative due to their remarkable
computational efficiency and cost effectiveness, particularly in
resource-constrained environments. Despite these advantages, the limited
capacity of 0.5 billion parameter models poses challenges in handling complex
tasks such as mathematical reasoning and code generation. This research
investigates various training strategies, including supervised fine-tuning
(SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as
their hybrid implementations, to enhance the performance of 0.5B SRLMs. We
analyze effective methodologies to bridge the performance gap between SRLMS and
larger models and present insights into optimal training pipelines tailored for
these smaller architectures. Through extensive experimental validation and
analysis, our work aims to provide actionable recommendations for maximizing
the reasoning capabilities of 0.5B models.