ChatPaper.aiChatPaper

SmolLM2: Когда маленькое становится большим - Данные-центричное обучение небольшой языковой модели

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

February 4, 2025
Авторы: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI

Аннотация

Хотя большие языковые модели способствовали прорывам во многих областях искусственного интеллекта, их внутреннее большое размерение делает их вычислительно дорогими и сложными для развертывания в условиях ограниченных ресурсов. В данной статье мы описываем разработку SmolLM2, передовой "небольшой" (1,7 миллиарда параметров) языковой модели (LM). Для достижения высокой производительности мы обучаем SmolLM2 на ~11 трлн токенов данных с использованием многоступенчатого процесса обучения, который смешивает веб-текст с специализированными математическими, кодовыми и инструкционными данными. Мы также представляем новые специализированные наборы данных (FineMath, Stack-Edu и SmolTalk) на этапах, где мы обнаружили, что существующие наборы данных являются проблематично малыми или низкого качества. Для обоснования наших проектных решений мы проводим как масштабные абляции, так и ручной процесс уточнения, который обновляет коэффициенты смешивания наборов данных на каждом этапе на основе производительности на предыдущем этапе. В конечном итоге мы демонстрируем, что SmolLM2 превосходит другие недавние небольшие LM, включая Qwen2.5-1.5B и Llama3.2-1B. Для облегчения будущих исследований по развитию LM, а также применения небольших LM, мы выпускаем как SmolLM2, так и все наборы данных, подготовленные в ходе этого проекта.
English
While large language models have facilitated breakthroughs in many applications of artificial intelligence, their inherent largeness makes them computationally expensive and challenging to deploy in resource-constrained settings. In this paper, we document the development of SmolLM2, a state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a multi-stage training process that mixes web text with specialized math, code, and instruction-following data. We additionally introduce new specialized datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing datasets to be problematically small or low-quality. To inform our design decisions, we perform both small-scale ablations as well as a manual refinement process that updates the dataset mixing rates at each stage based on the performance at the previous stage. Ultimately, we demonstrate that SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To facilitate future research on LM development as well as applications of small LMs, we release both SmolLM2 as well as all of the datasets we prepared in the course of this project.

Summary

AI-Generated Summary

PDF2286February 6, 2025