Informe técnico del Motif 2 12.7B
Motif 2 12.7B technical report
November 7, 2025
Autores: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI
Resumen
Presentamos Motif-2-12.7B, un nuevo modelo base de pesos abiertos que amplía la frontera de eficiencia de los modelos de lenguaje grande mediante la combinación de innovación arquitectónica con optimización a nivel de sistema. Diseñado para una comprensión del lenguaje escalable y una generalización robusta de instrucciones bajo presupuestos computacionales limitados, Motif-2-12.7B se basa en Motif-2.6B con la integración de la Atención Diferencial Agrupada (GDA), que mejora la eficiencia representacional al separar las vías de atención de control de señal y ruido. El modelo fue pre-entrenado con 5.5 billones de tokens que abarcan diversos dominios lingüísticos, matemáticos, científicos y de programación, utilizando un planificador de datos basado en currículo que modifica gradualmente la proporción de composición de los datos. El sistema de entrenamiento aprovecha el optimizador MuonClip junto con *kernels* de alto rendimiento personalizados, que incluyen activaciones PolyNorm fusionadas y el algoritmo Muon Paralelo, lo que genera ganancias significativas en rendimiento y eficiencia de memoria en entornos distribuidos a gran escala. El post-entrenamiento emplea un *pipeline* de ajuste fino supervisado de tres etapas que mejora sucesivamente la adherencia general a instrucciones, la comprensión composicional y la precisión lingüística. Motif-2-12.7B demuestra un rendimiento competitivo en diversos puntos de referencia, mostrando que un escalado arquitectónico cuidadoso y un diseño de entrenamiento optimizado pueden rivalizar con las capacidades de modelos mucho más grandes.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.