SmolLM2: Quando o Pequeno se Torna Grande - Treinamento Centrado em Dados de um Modelo de Linguagem Pequeno
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
February 4, 2025
Autores: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI
Resumo
Embora os grandes modelos de linguagem tenham facilitado avanços em muitas aplicações de inteligência artificial, sua grandeza inerente os torna computacionalmente caros e desafiadores de implantar em ambientes com recursos limitados. Neste artigo, documentamos o desenvolvimento do SmolLM2, um modelo de linguagem (LM) "pequeno" (com 1,7 bilhão de parâmetros) de última geração. Para obter um desempenho sólido, supertreinamos o SmolLM2 em cerca de 11 trilhões de tokens de dados usando um processo de treinamento em várias etapas que mistura texto da web com dados especializados em matemática, código e instruções. Além disso, introduzimos novos conjuntos de dados especializados (FineMath, Stack-Edu e SmolTalk) em estágios nos quais encontramos conjuntos de dados existentes problemáticos devido ao tamanho pequeno ou baixa qualidade. Para orientar nossas decisões de design, realizamos tanto ablações em pequena escala quanto um processo de refinamento manual que atualiza as taxas de mistura de conjuntos de dados em cada estágio com base no desempenho do estágio anterior. Demonstramos, em última análise, que o SmolLM2 supera outros modelos de linguagem pequenos recentes, incluindo o Qwen2.5-1.5B e o Llama3.2-1B. Para facilitar pesquisas futuras sobre o desenvolvimento de LM, bem como aplicações de LMs pequenos, disponibilizamos tanto o SmolLM2 quanto todos os conjuntos de dados que preparamos ao longo deste projeto.
English
While large language models have facilitated breakthroughs in many
applications of artificial intelligence, their inherent largeness makes them
computationally expensive and challenging to deploy in resource-constrained
settings. In this paper, we document the development of SmolLM2, a
state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain
strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a
multi-stage training process that mixes web text with specialized math, code,
and instruction-following data. We additionally introduce new specialized
datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing
datasets to be problematically small or low-quality. To inform our design
decisions, we perform both small-scale ablations as well as a manual refinement
process that updates the dataset mixing rates at each stage based on the
performance at the previous stage. Ultimately, we demonstrate that SmolLM2
outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To
facilitate future research on LM development as well as applications of small
LMs, we release both SmolLM2 as well as all of the datasets we prepared in the
course of this project.Summary
AI-Generated Summary