SmolLM2: Quando Smol diventa grande - Addestramento centrato sui dati di un piccolo modello linguistico
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
February 4, 2025
Autori: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI
Abstract
Sebbene i grandi modelli linguistici abbiano facilitato progressi in molte applicazioni dell'intelligenza artificiale, la loro intrinseca grandezza li rende computazionalmente costosi e difficili da implementare in contesti con risorse limitate. In questo articolo, documentiamo lo sviluppo di SmolLM2, un modello linguistico (LM) "piccolo" (1,7 miliardi di parametri) all'avanguardia. Per ottenere prestazioni elevate, sovraaddestriamo SmolLM2 su circa 11 trilioni di token di dati utilizzando un processo di addestramento multi-stadio che mescola testo web con dati matematici, codice e istruzioni specializzate. Introduciamo inoltre nuovi set di dati specializzati (FineMath, Stack-Edu e SmolTalk) nelle fasi in cui abbiamo riscontrato che i set di dati esistenti erano problematicamente piccoli o di bassa qualità. Per guidare le nostre decisioni progettuali, effettuiamo sia ablation su piccola scala che un processo di perfezionamento manuale che aggiorna i tassi di mescolamento dei dati ad ogni fase in base alle prestazioni della fase precedente. Dimostriamo infine che SmolLM2 supera altri recenti LM piccoli come Qwen2.5-1.5B e Llama3.2-1B. Per agevolare futuri studi sullo sviluppo di LM e sull'applicazione di LM piccoli, rilasciamo sia SmolLM2 che tutti i set di dati preparati nel corso di questo progetto.
English
While large language models have facilitated breakthroughs in many
applications of artificial intelligence, their inherent largeness makes them
computationally expensive and challenging to deploy in resource-constrained
settings. In this paper, we document the development of SmolLM2, a
state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain
strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a
multi-stage training process that mixes web text with specialized math, code,
and instruction-following data. We additionally introduce new specialized
datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing
datasets to be problematically small or low-quality. To inform our design
decisions, we perform both small-scale ablations as well as a manual refinement
process that updates the dataset mixing rates at each stage based on the
performance at the previous stage. Ultimately, we demonstrate that SmolLM2
outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To
facilitate future research on LM development as well as applications of small
LMs, we release both SmolLM2 as well as all of the datasets we prepared in the
course of this project.Summary
AI-Generated Summary