Rapport technique du Motif 2 12.7B
Motif 2 12.7B technical report
November 7, 2025
papers.authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI
papers.abstract
Nous présentons Motif-2-12.7B, un nouveau modèle de fondation à poids ouvert qui repousse les frontières de l'efficacité des grands modèles de langage en combinant innovation architecturale et optimisation au niveau du système. Conçu pour une compréhension linguistique évolutive et une généralisation robuste des instructions sous contrainte de budget de calcul, Motif-2-12.7B s'appuie sur Motif-2.6B en intégrant l'Attention Différentielle Groupée (GDA), qui améliore l'efficacité de représentation en dissociant les voies d'attention de signal et de contrôle du bruit. Le modèle est pré-entraîné sur 5,5 billions de tokens couvrant divers domaines linguistiques, mathématiques, scientifiques et de programmation, à l'aide d'un planificateur de données piloté par un curriculum qui modifie progressivement la composition des données. Le système d'entraînement tire parti de l'optimiseur MuonClip ainsi que de noyaux haute performance personnalisés, incluant les activations PolyNorm fusionnées et l'algorithme Parallel Muon, permettant des gains significatifs de débit et d'efficacité mémoire dans des environnements distribués à grande échelle. L'après-entraînement utilise un pipeline de réglage fin supervisé en trois étapes qui améliore successivement l'adhésion générale aux instructions, la compréhension compositionnelle et la précision linguistique. Motif-2-12.7B démontre des performances compétitives sur divers benchmarks, montrant qu'une mise à l'échelle architecturale réfléchie et une conception d'entraînement optimisée peuvent rivaliser avec les capacités de modèles beaucoup plus grands.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.