SmolLM2: Wenn Smol groß wird - datenzentriertes Training eines kleinen Sprachmodells
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
February 4, 2025
Autoren: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI
Zusammenfassung
Während große Sprachmodelle Durchbrüche in vielen Anwendungen der künstlichen Intelligenz ermöglicht haben, macht ihre inhärente Größe sie rechnerisch aufwendig und herausfordernd in Ressourcen-beschränkten Umgebungen einzusetzen. In diesem Artikel dokumentieren wir die Entwicklung von SmolLM2, einem hochmodernen "kleinen" (1,7 Milliarden Parameter) Sprachmodell (LM). Um starke Leistungen zu erzielen, übertrainieren wir SmolLM2 auf ~11 Billionen Tokens an Daten mithilfe eines mehrstufigen Schulungsprozesses, der Webtext mit spezialisierten Mathematik-, Code- und Anweisungsfolge-Daten kombiniert. Zusätzlich führen wir neue spezialisierte Datensätze (FineMath, Stack-Edu und SmolTalk) ein, in Phasen, in denen wir festgestellt haben, dass vorhandene Datensätze problematisch klein oder von geringer Qualität sind. Um unsere Designentscheidungen zu unterstützen, führen wir sowohl klein angelegte Ablationen als auch einen manuellen Verfeinerungsprozess durch, der die Mischraten der Datensätze in jeder Phase basierend auf der Leistung in der vorherigen Phase aktualisiert. Letztendlich zeigen wir, dass SmolLM2 andere kürzlich entwickelte kleine LMs wie Qwen2.5-1.5B und Llama3.2-1B übertrifft. Um zukünftige Forschung zur LM-Entwicklung sowie Anwendungen von kleinen LMs zu erleichtern, veröffentlichen wir sowohl SmolLM2 als auch alle Datensätze, die wir im Verlauf dieses Projekts vorbereitet haben.
English
While large language models have facilitated breakthroughs in many
applications of artificial intelligence, their inherent largeness makes them
computationally expensive and challenging to deploy in resource-constrained
settings. In this paper, we document the development of SmolLM2, a
state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain
strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a
multi-stage training process that mixes web text with specialized math, code,
and instruction-following data. We additionally introduce new specialized
datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing
datasets to be problematically small or low-quality. To inform our design
decisions, we perform both small-scale ablations as well as a manual refinement
process that updates the dataset mixing rates at each stage based on the
performance at the previous stage. Ultimately, we demonstrate that SmolLM2
outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To
facilitate future research on LM development as well as applications of small
LMs, we release both SmolLM2 as well as all of the datasets we prepared in the
course of this project.Summary
AI-Generated Summary