ChatPaper.aiChatPaper

Relatório Técnico do Motif 2 12.7B

Motif 2 12.7B technical report

November 7, 2025
Autores: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon
cs.AI

Resumo

Apresentamos o Motif-2-12.7B, um novo modelo de base de pesos abertos que expande a fronteira de eficiência dos grandes modelos de linguagem através da combinação de inovação arquitetônica com otimização em nível de sistema. Projetado para compreensão linguística escalável e generalização robusta de instruções sob orçamentos computacionais restritos, o Motif-2-12.7B é baseado no Motif-2.6B com a integração da Atenção Diferencial Agrupada (GDA), que melhora a eficiência representacional ao separar vias de atenção de controle de sinal e ruído. O modelo foi pré-treinado em 5,5 trilhões de tokens abrangendo diversos domínios linguísticos, matemáticos, científicos e de programação, utilizando um agendador de dados orientado por currículo que altera gradualmente a proporção de composição dos dados. O sistema de treinamento aproveita o otimizador MuonClip juntamente com *kernels* de alto desempenho personalizados, incluindo ativações fundidas PolyNorm e o algoritmo Parallel Muon, resultando em ganhos significativos de produtividade e eficiência de memória em ambientes distribuídos de grande escala. O pós-treinamento emprega um *pipeline* de ajuste fino supervisionado em três estágios que aprimora sucessivamente a adesão a instruções gerais, a compreensão composicional e a precisão linguística. O Motif-2-12.7B demonstra desempenho competitivo em diversos *benchmarks*, mostrando que o dimensionamento arquitetônico criterioso e o design de treinamento otimizado podem rivalizar com as capacidades de modelos muito maiores.
English
We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.
PDF382December 1, 2025