ChatPaper.aiChatPaper

Een technische studie naar kleine redeneertaalmodellen

A Technical Study into Small Reasoning Language Models

June 16, 2025
Auteurs: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI

Samenvatting

De voortdurende evolutie van taalmodelen heeft geleid tot de ontwikkeling van grootschalige architecturen die uitzonderlijke prestaties leveren op een breed scala aan taken. Deze modellen gaan echter gepaard met aanzienlijke rekenkundige en energiebehoeften, evenals mogelijke privacyimplicaties. In deze context vormen Small Reasoning Language Models (SRLMs) met ongeveer 0,5 miljard parameters een aantrekkelijk alternatief vanwege hun opmerkelijke rekenkundige efficiëntie en kosteneffectiviteit, vooral in omgevingen met beperkte middelen. Ondanks deze voordelen vormt de beperkte capaciteit van modellen met 0,5 miljard parameters een uitdaging bij het uitvoeren van complexe taken zoals wiskundig redeneren en codegeneratie. Dit onderzoek onderzoekt verschillende trainingsstrategieën, waaronder supervised fine-tuning (SFT), knowledge distillation (KD) en reinforcement learning (RL), evenals hun hybride implementaties, om de prestaties van 0,5B SRLMs te verbeteren. We analyseren effectieve methodologieën om de prestatiekloof tussen SRLMs en grotere modellen te overbruggen en presenteren inzichten in optimale trainingspijplijnen die zijn afgestemd op deze kleinere architecturen. Door uitgebreide experimentele validatie en analyse streeft ons werk ernaar actiegerichte aanbevelingen te bieden voor het maximaliseren van de redeneercapaciteiten van 0,5B-modellen.
English
The ongoing evolution of language models has led to the development of large-scale architectures that demonstrate exceptional performance across a wide range of tasks. However, these models come with significant computational and energy demands, as well as potential privacy implications. In this context, Small Reasoning Language Models (SRLMs) with approximately 0.5 billion parameters present a compelling alternative due to their remarkable computational efficiency and cost effectiveness, particularly in resource-constrained environments. Despite these advantages, the limited capacity of 0.5 billion parameter models poses challenges in handling complex tasks such as mathematical reasoning and code generation. This research investigates various training strategies, including supervised fine-tuning (SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as their hybrid implementations, to enhance the performance of 0.5B SRLMs. We analyze effective methodologies to bridge the performance gap between SRLMS and larger models and present insights into optimal training pipelines tailored for these smaller architectures. Through extensive experimental validation and analysis, our work aims to provide actionable recommendations for maximizing the reasoning capabilities of 0.5B models.
PDF94June 17, 2025