Технический отчет по модели Motif 2 12.7B
Motif 2 12.7B technical report
November 7, 2025
Авторы: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI
Аннотация
Мы представляем Motif-2-12.7B — новую модель с открытыми весами, которая расширяет границы эффективности больших языковых моделей за счёт сочетания архитектурных инноваций и системной оптимизации. Разработанная для масштабируемого понимания языка и устойчивого обобщения инструкций при ограниченных вычислительных ресурсах, модель Motif-2-12.7B основана на архитектуре Motif-2.6B с интеграцией группового дифференциального внимания (GDA), которое повышает репрезентативную эффективность за счёт разделения путей внимания для обработки сигнала и управления шумом. Модель предварительно обучалась на 5,5 триллионах токенов из различных лингвистических, математических, научных и программных доменов с использованием планировщика данных на основе учебного плана, который постепенно меняет соотношение композиции данных. Тренировочная система использует оптимизатор MuonClip вместе с высокопроизводительными ядрами, включая сплавленные активации PolyNorm и алгоритм Parallel Muon, что обеспечивает значительный прирост пропускной способности и эффективности использования памяти в крупномасштабных распределённых средах. Пост-тренинг включает трёхэтапный конвейер обучения с учителем, который последовательно улучшает следование общим инструкциям, композиционное понимание и лингвистическую точность. Motif-2-12.7B демонстрирует конкурентоспособные результаты в различных бенчмарках, показывая, что продуманное масштабирование архитектуры и оптимизированный дизайн обучения могут соперничать с возможностями значительно более крупных моделей.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.