ChatPaper.aiChatPaper

Motif 2 12.7B Technischer Bericht

Motif 2 12.7B technical report

November 7, 2025
papers.authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI

papers.abstract

Wir stellen Motif-2-12.7B vor, ein neues Open-Weight-Foundation-Model, das die Effizienzgrenze großer Sprachmodelle durch die Kombination von Architekturinnovationen und Systemoptimierungen verschiebt. Motif-2-12.7B wurde für skalierbares Sprachverständnis und robuste Instruktionsverallgemeinerung unter begrenzten Rechenbudgets entwickelt und baut auf Motif-2.6B auf, indem es Grouped Differential Attention (GDA) integriert. Dieser Mechanismus verbessert die Repräsentationseffizienz, indem er Signal- und Rauschkontroll-Aufmerksamkeitspfade entkoppelt. Das Modell wurde mit 5,5 Billionen Tokens vortrainiert, die verschiedene linguistische, mathematische, wissenschaftliche und Programmierdomänen abdecken, unter Verwendung eines curriculumgesteuerten Datenplaners, der die Datenzusammensetzung schrittweise anpasst. Das Trainingssystem nutzt den MuonClip-Optimierer zusammen mit maßgeschneiderten Hochleistungskerneln, einschließlich gefusster PolyNorm-Aktivierungen und dem parallelen Muon-Algorithmus, was zu erheblichen Durchsatz- und Speichereffizienzsteigerungen in großskaligen verteilten Umgebungen führt. Das Post-Training umfasst eine dreistufige Pipeline für überwachtes Feintuning, die nacheinander die allgemeine Instruktionsbefolgung, das kompositionelle Verständnis und die linguistische Präzision verbessert. Motif-2-12.7B zeigt eine wettbewerbsfähige Leistung in verschiedenen Benchmarks und belegt, dass durchdachtes architektonisches Skalieren und optimiertes Trainingsdesign die Fähigkeiten deutlich größerer Modelle erreichen können.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.
PDF382December 1, 2025