SmolLM2: Quando o Pequeno se Torna Grande - Treinamento Centrado em Dados de um Modelo de Linguagem PequenoSmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language
Model
Embora os grandes modelos de linguagem tenham facilitado avanços em muitas aplicações de inteligência artificial, sua grandeza inerente os torna computacionalmente caros e desafiadores de implantar em ambientes com recursos limitados. Neste artigo, documentamos o desenvolvimento do SmolLM2, um modelo de linguagem (LM) "pequeno" (com 1,7 bilhão de parâmetros) de última geração. Para obter um desempenho sólido, supertreinamos o SmolLM2 em cerca de 11 trilhões de tokens de dados usando um processo de treinamento em várias etapas que mistura texto da web com dados especializados em matemática, código e instruções. Além disso, introduzimos novos conjuntos de dados especializados (FineMath, Stack-Edu e SmolTalk) em estágios nos quais encontramos conjuntos de dados existentes problemáticos devido ao tamanho pequeno ou baixa qualidade. Para orientar nossas decisões de design, realizamos tanto ablações em pequena escala quanto um processo de refinamento manual que atualiza as taxas de mistura de conjuntos de dados em cada estágio com base no desempenho do estágio anterior. Demonstramos, em última análise, que o SmolLM2 supera outros modelos de linguagem pequenos recentes, incluindo o Qwen2.5-1.5B e o Llama3.2-1B. Para facilitar pesquisas futuras sobre o desenvolvimento de LM, bem como aplicações de LMs pequenos, disponibilizamos tanto o SmolLM2 quanto todos os conjuntos de dados que preparamos ao longo deste projeto.