ChatPaper.aiChatPaper

Uno Studio Tecnico sui Modelli Linguistici di Ragionamento di Piccole Dimensioni

A Technical Study into Small Reasoning Language Models

June 16, 2025
Autori: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI

Abstract

L'evoluzione continua dei modelli linguistici ha portato allo sviluppo di architetture su larga scala che dimostrano prestazioni eccezionali in un'ampia gamma di compiti. Tuttavia, questi modelli comportano significativi requisiti computazionali e di energia, oltre a potenziali implicazioni sulla privacy. In questo contesto, i Small Reasoning Language Models (SRLMs) con circa 0,5 miliardi di parametri rappresentano un'alternativa convincente grazie alla loro notevole efficienza computazionale e convenienza economica, specialmente in ambienti con risorse limitate. Nonostante questi vantaggi, la capacità limitata dei modelli da 0,5 miliardi di parametri presenta sfide nella gestione di compiti complessi come il ragionamento matematico e la generazione di codice. Questa ricerca esamina varie strategie di addestramento, tra cui il fine-tuning supervisionato (SFT), la distillazione della conoscenza (KD) e l'apprendimento per rinforzo (RL), nonché le loro implementazioni ibride, per migliorare le prestazioni degli SRLMs da 0,5B. Analizziamo metodologie efficaci per colmare il divario prestazionale tra gli SRLMs e i modelli più grandi e presentiamo approfondimenti sulle pipeline di addestramento ottimali progettate per queste architetture più piccole. Attraverso un'ampia validazione sperimentale e analisi, il nostro lavoro mira a fornire raccomandazioni pratiche per massimizzare le capacità di ragionamento dei modelli da 0,5B.
English
The ongoing evolution of language models has led to the development of large-scale architectures that demonstrate exceptional performance across a wide range of tasks. However, these models come with significant computational and energy demands, as well as potential privacy implications. In this context, Small Reasoning Language Models (SRLMs) with approximately 0.5 billion parameters present a compelling alternative due to their remarkable computational efficiency and cost effectiveness, particularly in resource-constrained environments. Despite these advantages, the limited capacity of 0.5 billion parameter models poses challenges in handling complex tasks such as mathematical reasoning and code generation. This research investigates various training strategies, including supervised fine-tuning (SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as their hybrid implementations, to enhance the performance of 0.5B SRLMs. We analyze effective methodologies to bridge the performance gap between SRLMS and larger models and present insights into optimal training pipelines tailored for these smaller architectures. Through extensive experimental validation and analysis, our work aims to provide actionable recommendations for maximizing the reasoning capabilities of 0.5B models.
PDF94June 17, 2025