ChatPaper.aiChatPaper

モチーフ2 12.7B 技術レポート

Motif 2 12.7B technical report

November 7, 2025
著者: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI

要旨

我々はMotif-2-12.7Bを紹介する。これは、アーキテクチャの革新とシステムレベルの最適化を組み合わせることで、大規模言語モデルの効率フロンティアを押し広げる新しいオープンウェイト基盤モデルである。限られた計算予算下でのスケーラブルな言語理解と堅牢な指示汎化を目的として設計されたMotif-2-12.7Bは、Motif-2.6Bを基盤とし、Grouped Differential Attention(GDA)を統合することで、信号とノイズ制御の注意経路を分離し表現効率を改善している。本モデルは、言語、数学、科学、プログラミングなど多様な領域にわたる5.5兆トークンで、データ構成比を段階的に変更するカリキュラム駆動型データスケジューラを使用して事前学習されている。学習システムは、MuonClipオプティマイザと、融合PolyNorm活性化関数およびParallel Muonアルゴリズムを含むカスタム高性能カーネルを活用し、大規模分散環境においてスループットとメモリ効率の大幅な向上を実現している。学習後処理では、一般的な指示への遵守、合成的理解、言語的精度を段階的に強化する3段階の教師ありファインチューニングパイプラインを採用している。Motif-2-12.7Bは、多様なベンチマークで競争力のある性能を示し、慎重に設計されたアーキテクチャのスケーリングと最適化された学習設計が、はるかに大規模なモデルの能力に匹敵し得ることを実証している。
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.
PDF382December 1, 2025