Relatório Técnico do Motif 2 12.7B

Resumo

Apresentamos o Motif-2-12.7B, um novo modelo de base de pesos abertos que expande a fronteira de eficiência dos grandes modelos de linguagem através da combinação de inovação arquitetônica com otimização em nível de sistema. Projetado para compreensão linguística escalável e generalização robusta de instruções sob orçamentos computacionais restritos, o Motif-2-12.7B é baseado no Motif-2.6B com a integração da Atenção Diferencial Agrupada (GDA), que melhora a eficiência representacional ao separar vias de atenção de controle de sinal e ruído. O modelo foi pré-treinado em 5,5 trilhões de tokens abrangendo diversos domínios linguísticos, matemáticos, científicos e de programação, utilizando um agendador de dados orientado por currículo que altera gradualmente a proporção de composição dos dados. O sistema de treinamento aproveita o otimizador MuonClip juntamente com *kernels* de alto desempenho personalizados, incluindo ativações fundidas PolyNorm e o algoritmo Parallel Muon, resultando em ganhos significativos de produtividade e eficiência de memória em ambientes distribuídos de grande escala. O pós-treinamento emprega um *pipeline* de ajuste fino supervisionado em três estágios que aprimora sucessivamente a adesão a instruções gerais, a compreensão composicional e a precisão linguística. O Motif-2-12.7B demonstra desempenho competitivo em diversos *benchmarks*, mostrando que o dimensionamento arquitetônico criterioso e o design de treinamento otimizado podem rivalizar com as capacidades de modelos muito maiores.

English

We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.

Relatório Técnico do Motif 2 12.7B

Motif 2 12.7B technical report

Resumo

Support