ChatPaper.aiChatPaper

Motif 2 12.7B 기술 보고서

Motif 2 12.7B technical report

November 7, 2025
저자: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI

초록

우리는 아키텍처 혁신과 시스템 수준 최적화를 결합하여 대규모 언어 모델의 효율성 한계를 넓힌 새로운 오픈 웨이트 기초 모델인 Motif-2-12.7B를 소개한다. 제한된 컴퓨팅 예산 내에서 확장 가능한 언어 이해와 강력한 지시문 일반화를 위해 설계된 Motif-2.7B는 신호와 잡음 제어 주의 경로를 분리하여 표현 효율성을 향상시키는 GDA(Grouped Differential Attention)를 통합하여 Motif-2.6B를 기반으로 구축되었다. 본 모델은 데이터 구성 비율을 점진적으로 변경하는 커리큘럼 기반 데이터 스케줄러를 사용하여 다양한 언어, 수학, 과학 및 프로그래밍 영역에 걸친 5.5조 토큰으로 사전 학습되었다. 훈련 시스템은 융합된 PolyNorm 활성화 함수와 Parallel Muon 알고리즘을 포함한 맞춤형 고성능 커널과 함께 MuonClip 옵티마이저를 활용하여 대규모 분산 환경에서 처리량과 메모리 효율성을 크게 높였다. 사후 훈련은 일반적인 지시문 준수, 구성적 이해 및 언어적 정밀도를 순차적으로 향상시키는 3단계 지도 미세 조정 파이프라인을 사용한다. Motif-2-12.7B는 다양한 벤치마크에서 경쟁력 있는 성능을 보여주며, 신중한 아키텍처 확장과 최적화된 훈련 설계가 훨씬 더 큰 모델의 능력에 맞설 수 있음을 입증한다.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.
PDF382December 1, 2025