SmolLM2: Когда маленькое становится большим - Данные-центричное обучение небольшой языковой моделиSmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language
Model
Хотя большие языковые модели способствовали прорывам во многих областях искусственного интеллекта, их внутреннее большое размерение делает их вычислительно дорогими и сложными для развертывания в условиях ограниченных ресурсов. В данной статье мы описываем разработку SmolLM2, передовой "небольшой" (1,7 миллиарда параметров) языковой модели (LM). Для достижения высокой производительности мы обучаем SmolLM2 на ~11 трлн токенов данных с использованием многоступенчатого процесса обучения, который смешивает веб-текст с специализированными математическими, кодовыми и инструкционными данными. Мы также представляем новые специализированные наборы данных (FineMath, Stack-Edu и SmolTalk) на этапах, где мы обнаружили, что существующие наборы данных являются проблематично малыми или низкого качества. Для обоснования наших проектных решений мы проводим как масштабные абляции, так и ручной процесс уточнения, который обновляет коэффициенты смешивания наборов данных на каждом этапе на основе производительности на предыдущем этапе. В конечном итоге мы демонстрируем, что SmolLM2 превосходит другие недавние небольшие LM, включая Qwen2.5-1.5B и Llama3.2-1B. Для облегчения будущих исследований по развитию LM, а также применения небольших LM, мы выпускаем как SmolLM2, так и все наборы данных, подготовленные в ходе этого проекта.