SmolLM2: スモールがビッグになるとき -- 小さな言語モデルのデータ中心トレーニングSmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language
Model
大規模言語モデルは、人工知能の多くの応用分野でのブレークスルーを可能にしましたが、その巨大さゆえに、計算コストが高く、リソースに制約のある環境での展開が困難です。本論文では、最先端の「小規模」(17億パラメータ)言語モデル(LM)であるSmolLM2の開発を文書化します。高い性能を実現するために、Webテキストと専門的な数学、コード、および命令に従うデータを混合した、約11兆トークンのデータでSmolLM2を過学習させる多段階トレーニングプロセスを採用しています。既存のデータセットが問題となるほど小さくまたは低品質であると判断された段階で、新しい専門データセット(FineMath、Stack-Edu、SmolTalk)を追加します。設計上の決定を行うために、小規模な削減実験と、前段階のパフォーマンスに基づいて各段階でデータセットの混合率を更新する手作業の改良プロセスを実施します。最終的に、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bを含む他の最近の小規模LMを凌駕することを示します。LMの開発および小規模LMの応用に関する将来の研究を促進するために、このプロジェクトの過程で準備したすべてのデータセットとともに、SmolLM2を公開します。