ChatPaper.aiChatPaper

SmolLM2: Cuando lo Pequeño se Vuelve Grande - Entrenamiento Centrado en Datos de un Modelo de Lenguaje Pequeño

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

February 4, 2025
Autores: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI

Resumen

Si bien los modelos de lenguaje grandes han facilitado avances en muchas aplicaciones de inteligencia artificial, su gran tamaño inherente los hace computacionalmente costosos y difíciles de implementar en entornos con recursos limitados. En este documento, documentamos el desarrollo de SmolLM2, un modelo de lenguaje (LM) "pequeño" (con 1.7 mil millones de parámetros) de última generación. Para lograr un rendimiento sólido, sobreentrenamos SmolLM2 con ~11 billones de tokens de datos utilizando un proceso de entrenamiento multietapa que combina texto web con datos especializados de matemáticas, código e instrucciones a seguir. Además, introducimos nuevos conjuntos de datos especializados (FineMath, Stack-Edu y SmolTalk) en etapas donde encontramos que los conjuntos de datos existentes eran problemáticamente pequeños o de baja calidad. Para informar nuestras decisiones de diseño, realizamos tanto ablaciones a pequeña escala como un proceso de refinamiento manual que actualiza las tasas de mezcla de conjuntos de datos en cada etapa en función del rendimiento en la etapa anterior. En última instancia, demostramos que SmolLM2 supera a otros LM pequeños recientes, incluidos Qwen2.5-1.5B y Llama3.2-1B. Para facilitar la investigación futura sobre el desarrollo de LM, así como las aplicaciones de LM pequeños, lanzamos tanto SmolLM2 como todos los conjuntos de datos que preparamos en el transcurso de este proyecto.
English
While large language models have facilitated breakthroughs in many applications of artificial intelligence, their inherent largeness makes them computationally expensive and challenging to deploy in resource-constrained settings. In this paper, we document the development of SmolLM2, a state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a multi-stage training process that mixes web text with specialized math, code, and instruction-following data. We additionally introduce new specialized datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing datasets to be problematically small or low-quality. To inform our design decisions, we perform both small-scale ablations as well as a manual refinement process that updates the dataset mixing rates at each stage based on the performance at the previous stage. Ultimately, we demonstrate that SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To facilitate future research on LM development as well as applications of small LMs, we release both SmolLM2 as well as all of the datasets we prepared in the course of this project.

Summary

AI-Generated Summary

PDF2286February 6, 2025