SmolLM2 : Quand le Petit Devient Grand - Entraînement Centré sur les Données d'un Petit Modèle de Langage
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
February 4, 2025
Auteurs: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI
Résumé
Alors que les grands modèles de langage ont facilité des percées dans de nombreuses applications de l'intelligence artificielle, leur grande taille intrinsèque les rend coûteux en termes de calcul et difficiles à déployer dans des environnements aux ressources limitées. Dans cet article, nous documentons le développement de SmolLM2, un modèle de langage (LM) "petit" de pointe (1,7 milliard de paramètres). Pour obtenir de bonnes performances, nous sur-entraînons SmolLM2 sur environ 11 billions de jetons de données en utilisant un processus d'entraînement multi-étapes qui mélange du texte web avec des données mathématiques, de code et de suivi d'instructions spécialisées. Nous introduisons également de nouveaux ensembles de données spécialisés (FineMath, Stack-Edu et SmolTalk) à des étapes où nous avons constaté que les ensembles de données existants étaient problématiquement petits ou de faible qualité. Pour étayer nos décisions de conception, nous réalisons à la fois des ablations à petite échelle ainsi qu'un processus de raffinement manuel qui met à jour les taux de mélange des ensembles de données à chaque étape en fonction des performances de l'étape précédente. En fin de compte, nous démontrons que SmolLM2 surpasse d'autres récents petits LMs, y compris Qwen2.5-1.5B et Llama3.2-1B. Pour faciliter les futures recherches sur le développement de LM ainsi que les applications de petits LMs, nous publions à la fois SmolLM2 ainsi que tous les ensembles de données que nous avons préparés au cours de ce projet.
English
While large language models have facilitated breakthroughs in many
applications of artificial intelligence, their inherent largeness makes them
computationally expensive and challenging to deploy in resource-constrained
settings. In this paper, we document the development of SmolLM2, a
state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain
strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a
multi-stage training process that mixes web text with specialized math, code,
and instruction-following data. We additionally introduce new specialized
datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing
datasets to be problematically small or low-quality. To inform our design
decisions, we perform both small-scale ablations as well as a manual refinement
process that updates the dataset mixing rates at each stage based on the
performance at the previous stage. Ultimately, we demonstrate that SmolLM2
outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To
facilitate future research on LM development as well as applications of small
LMs, we release both SmolLM2 as well as all of the datasets we prepared in the
course of this project.Summary
AI-Generated Summary