ChatPaper.aiChatPaper

Rapporto tecnico di Motif 2 12.7B

Motif 2 12.7B technical report

November 7, 2025
Autori: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI

Abstract

Presentiamo Motif-2-12.7B, un nuovo modello fondante open-weight che spinge in avanti la frontiera dell'efficienza dei grandi modelli linguistici combinando innovazioni architetturali con ottimizzazioni a livello di sistema. Progettato per una comprensione linguistica scalabile e una robusta generalizzazione delle istruzioni con budget computazionali limitati, Motif-2-12.7B si basa su Motif-2.6B integrando l'Attenzione Differenziale Raggruppata (Grouped Differential Attention, GDA), che migliora l'efficienza rappresentativa separando i percorsi attentivi per il segnale e per il controllo del rumore. Il modello è stato pre-addestrato su 5,5 trilioni di token che coprono diversi ambiti linguistici, matematici, scientifici e di programmazione, utilizzando un pianificatore dei dati guidato da un curriculum che modifica gradualmente il rapporto di composizione dei dati. Il sistema di addestramento sfrutta l'ottimizzatore MuonClip insieme a kernel ad alte prestazioni personalizzati, inclusi la funzione di attivazione PolyNorm fusa e l'algoritmo Parallel Muon, ottenendo significativi guadagni in termini di velocità di elaborazione ed efficienza di memoria in ambienti distribuiti su larga scala. Il post-addestramento impiega una pipeline di fine-tuning supervisionato in tre fasi che migliora successivamente l'aderenza generale alle istruzioni, la comprensione compositiva e la precisione linguistica. Motif-2-12.7B dimostra prestazioni competitive su una vasta gamma di benchmark, mostrando come un dimensionamento architetturale ponderato e una progettazione ottimizzata dell'addestramento possano rivaleggiare con le capacità di modelli molto più grandi.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.
PDF382December 1, 2025