Une étude technique sur les petits modèles de langage pour le raisonnement
A Technical Study into Small Reasoning Language Models
June 16, 2025
Auteurs: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu
cs.AI
Résumé
L'évolution continue des modèles de langage a conduit au développement d'architectures à grande échelle qui démontrent des performances exceptionnelles sur un large éventail de tâches. Cependant, ces modèles s'accompagnent de demandes computationnelles et énergétiques significatives, ainsi que de potentielles implications en matière de confidentialité. Dans ce contexte, les Small Reasoning Language Models (SRLMs) avec environ 0,5 milliard de paramètres représentent une alternative convaincante en raison de leur remarquable efficacité computationnelle et de leur rentabilité, en particulier dans des environnements aux ressources limitées. Malgré ces avantages, la capacité limitée des modèles à 0,5 milliard de paramètres pose des défis dans la gestion de tâches complexes telles que le raisonnement mathématique et la génération de code. Cette recherche explore diverses stratégies d'entraînement, incluant le fine-tuning supervisé (SFT), la distillation de connaissances (KD) et l'apprentissage par renforcement (RL), ainsi que leurs implémentations hybrides, pour améliorer les performances des SRLMs à 0,5 milliard de paramètres. Nous analysons des méthodologies efficaces pour combler l'écart de performance entre les SRLMs et les modèles plus grands, et présentons des insights sur les pipelines d'entraînement optimaux adaptés à ces architectures plus petites. Grâce à une validation expérimentale approfondie et à des analyses détaillées, notre travail vise à fournir des recommandations pratiques pour maximiser les capacités de raisonnement des modèles à 0,5 milliard de paramètres.
English
The ongoing evolution of language models has led to the development of
large-scale architectures that demonstrate exceptional performance across a
wide range of tasks. However, these models come with significant computational
and energy demands, as well as potential privacy implications. In this context,
Small Reasoning Language Models (SRLMs) with approximately 0.5 billion
parameters present a compelling alternative due to their remarkable
computational efficiency and cost effectiveness, particularly in
resource-constrained environments. Despite these advantages, the limited
capacity of 0.5 billion parameter models poses challenges in handling complex
tasks such as mathematical reasoning and code generation. This research
investigates various training strategies, including supervised fine-tuning
(SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as
their hybrid implementations, to enhance the performance of 0.5B SRLMs. We
analyze effective methodologies to bridge the performance gap between SRLMS and
larger models and present insights into optimal training pipelines tailored for
these smaller architectures. Through extensive experimental validation and
analysis, our work aims to provide actionable recommendations for maximizing
the reasoning capabilities of 0.5B models.