ChatPaper.aiChatPaper

SmolLM2: スモールがビッグになるとき -- 小さな言語モデルのデータ中心トレーニング

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

February 4, 2025
著者: Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf
cs.AI

要旨

大規模言語モデルは、人工知能の多くの応用分野でのブレークスルーを可能にしましたが、その巨大さゆえに、計算コストが高く、リソースに制約のある環境での展開が困難です。本論文では、最先端の「小規模」(17億パラメータ)言語モデル(LM)であるSmolLM2の開発を文書化します。高い性能を実現するために、Webテキストと専門的な数学、コード、および命令に従うデータを混合した、約11兆トークンのデータでSmolLM2を過学習させる多段階トレーニングプロセスを採用しています。既存のデータセットが問題となるほど小さくまたは低品質であると判断された段階で、新しい専門データセット(FineMath、Stack-Edu、SmolTalk)を追加します。設計上の決定を行うために、小規模な削減実験と、前段階のパフォーマンスに基づいて各段階でデータセットの混合率を更新する手作業の改良プロセスを実施します。最終的に、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bを含む他の最近の小規模LMを凌駕することを示します。LMの開発および小規模LMの応用に関する将来の研究を促進するために、このプロジェクトの過程で準備したすべてのデータセットとともに、SmolLM2を公開します。
English
While large language models have facilitated breakthroughs in many applications of artificial intelligence, their inherent largeness makes them computationally expensive and challenging to deploy in resource-constrained settings. In this paper, we document the development of SmolLM2, a state-of-the-art "small" (1.7 billion parameter) language model (LM). To attain strong performance, we overtrain SmolLM2 on ~11 trillion tokens of data using a multi-stage training process that mixes web text with specialized math, code, and instruction-following data. We additionally introduce new specialized datasets (FineMath, Stack-Edu, and SmolTalk) at stages where we found existing datasets to be problematically small or low-quality. To inform our design decisions, we perform both small-scale ablations as well as a manual refinement process that updates the dataset mixing rates at each stage based on the performance at the previous stage. Ultimately, we demonstrate that SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B. To facilitate future research on LM development as well as applications of small LMs, we release both SmolLM2 as well as all of the datasets we prepared in the course of this project.

Summary

AI-Generated Summary

PDF2286February 6, 2025