SmolLM2: Wanneer Smol Groot Gaat -- Data-Centrische Training van een Kleine Taalmodel
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
February 4, 2025
Auteurs: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI
Samenvatting
Hoewel grote taalmodellen doorbraken hebben mogelijk gemaakt in vele toepassingen van kunstmatige intelligentie, maakt hun inherente omvang ze rekenkundig duur en uitdagend om in omgevingen met beperkte middelen in te zetten. In dit artikel documenteren we de ontwikkeling van SmolLM2, een geavanceerd "klein" (1,7 miljard parameters) taalmodel (TM). Om sterke prestaties te behalen, trainen we SmolLM2 overmatig op ~11 biljoen tokens aan data met behulp van een meertraps trainingsproces dat webtekst mengt met gespecialiseerde wiskunde, code en instructievolgdata. We introduceren ook nieuwe gespecialiseerde datasets (FineMath, Stack-Edu en SmolTalk) op momenten waarop we ontdekten dat bestaande datasets problematisch klein of van lage kwaliteit waren. Om onze ontwerpbeslissingen te onderbouwen, voeren we zowel kleinschalige ablaties uit als een handmatig verfijningsproces dat de datasetmengverhoudingen bij elke fase bijwerkt op basis van de prestaties in de vorige fase. Uiteindelijk tonen we aan dat SmolLM2 beter presteert dan andere recente kleine TMs, waaronder Qwen2.5-1.5B en Llama3.2-1B. Om toekomstig onderzoek naar TM-ontwikkeling en toepassingen van kleine TMs te vergemakkelijken, stellen we zowel SmolLM2 als alle datasets die we hebben voorbereid in de loop van dit project beschikbaar.
English
While large language models have facilitated breakthroughs in many
applications of artificial intelligence, their inherent largeness makes them
computationally expensive and challenging to deploy in resource-constrained
settings. In this paper, we document the development of SmolLM2, a
state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain
strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a
multi-stage training process that mixes web text with specialized math, code,
and instruction-following data. We additionally introduce new specialized
datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing
datasets to be problematically small or low-quality. To inform our design
decisions, we perform both small-scale ablations as well as a manual refinement
process that updates the dataset mixing rates at each stage based on the
performance at the previous stage. Ultimately, we demonstrate that SmolLM2
outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To
facilitate future research on LM development as well as applications of small
LMs, we release both SmolLM2 as well as all of the datasets we prepared in the
course of this project.Summary
AI-Generated Summary