Eine technische Studie über kleine Sprachmodelle für logisches Schließen
A Technical Study into Small Reasoning Language Models
June 16, 2025
Autoren: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI
Zusammenfassung
Die kontinuierliche Weiterentwicklung von Sprachmodellen hat zur Entwicklung großskaliger Architekturen geführt, die außergewöhnliche Leistungen über eine breite Palette von Aufgaben hinweg demonstrieren. Diese Modelle gehen jedoch mit erheblichen Rechen- und Energieanforderungen sowie potenziellen Datenschutzimplikationen einher. In diesem Kontext stellen Small Reasoning Language Models (SRLMs) mit etwa 0,5 Milliarden Parametern eine überzeugende Alternative dar, insbesondere aufgrund ihrer bemerkenswerten Recheneffizienz und Kosteneffektivität, vor allem in ressourcenbeschränkten Umgebungen. Trotz dieser Vorteile stellt die begrenzte Kapazität von Modellen mit 0,5 Milliarden Parametern Herausforderungen bei der Bewältigung komplexer Aufgaben wie mathematischem Denken und Code-Generierung dar. Diese Forschung untersucht verschiedene Trainingsstrategien, einschließlich Supervised Fine-Tuning (SFT), Knowledge Distillation (KD) und Reinforcement Learning (RL) sowie deren hybride Implementierungen, um die Leistung von 0,5B SRLMs zu verbessern. Wir analysieren effektive Methodologien, um die Leistungslücke zwischen SRLMs und größeren Modellen zu schließen, und präsentieren Erkenntnisse zu optimalen Trainingspipelines, die speziell für diese kleineren Architekturen zugeschnitten sind. Durch umfangreiche experimentelle Validierung und Analyse zielt unsere Arbeit darauf ab, umsetzbare Empfehlungen zur Maximierung der Denkfähigkeiten von 0,5B-Modellen zu liefern.
English
The ongoing evolution of language models has led to the development of
large-scale architectures that demonstrate exceptional performance across a
wide range of tasks. However, these models come with significant computational
and energy demands, as well as potential privacy implications. In this context,
Small Reasoning Language Models (SRLMs) with approximately 0.5 billion
parameters present a compelling alternative due to their remarkable
computational efficiency and cost effectiveness, particularly in
resource-constrained environments. Despite these advantages, the limited
capacity of 0.5 billion parameter models poses challenges in handling complex
tasks such as mathematical reasoning and code generation. This research
investigates various training strategies, including supervised fine-tuning
(SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as
their hybrid implementations, to enhance the performance of 0.5B SRLMs. We
analyze effective methodologies to bridge the performance gap between SRLMS and
larger models and present insights into optimal training pipelines tailored for
these smaller architectures. Through extensive experimental validation and
analysis, our work aims to provide actionable recommendations for maximizing
the reasoning capabilities of 0.5B models.