ChatPaper.aiChatPaper

Relatório Técnico Mellum2

Mellum2 Technical Report

May 29, 2026
Autores: Marko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko
cs.AI

Resumo

Apresentamos o Mellum 2, um modelo de linguagem Mixture-of-Experts (MoE) de pesos abertos com 12B de parâmetros e 2,5B de parâmetros ativos por token. O Mellum 2 é um modelo de linguagem de uso geral especializado em engenharia de software, abrangendo geração e edição de código, depuração, raciocínio de múltiplas etapas, uso de ferramentas e chamada de funções, codificação agentiva e assistência conversacional em programação, sendo o sucessor do modelo Mellum denso de 4B focado em conclusão. A arquitetura baseia-se no Mixture-of-Experts (64 especialistas, 8 ativos) e combina Grouped-Query Attention com 4 cabeças KV, Sliding Window Attention em três de cada quatro camadas, e uma única cabeça de Predição de Múltiplos Tokens que funciona tanto como um objetivo auxiliar de pré-treinamento quanto como um modelo de rascunho integrado para decodificação especulativa; cada escolha foi validada por ablação, tendo a eficiência de inferência em GPUs comerciais como restrição de projeto. O pré-treinamento abrange aproximadamente 10,6 trilhões de tokens através de um currículo de três fases que progressivamente desloca a mistura de dados web diversos para conteúdo de código e matemática curados, otimizado com Muon sob precisão híbrida FP8 e um cronograma Warmup-Hold-Decay com decaimento linear até zero. A base pré-treinada é estendida para uma janela de contexto de 128K via YaRN seletivo por camada e, em seguida, é pós-treinada em duas etapas (ajuste fino supervisionado seguido de RLVR), resultando em duas variantes lançadas: um modelo Instruct que responde diretamente e um modelo Thinking que emite um traço de raciocínio explícito antes de sua resposta final. Em benchmarks de geração de código, matemática e raciocínio, uso de ferramentas, conhecimento e segurança, o Mellum 2 é competitivo com linhas de base de pesos abertos na faixa de 4B-14B, enquanto opera com o custo computacional por token de um modelo denso de 2,5B. Disponibilizamos os checkpoints base, instruct e thinking, juntamente com este relatório sobre as decisões de arquitetura, pipeline de dados e receita de treinamento por trás deles, sob a licença Apache 2.0.
English
We present Mellum 2, an open-weight 12B-parameter Mixture-of-Experts (MoE) language model with 2.5B active parameters per token. Mellum 2 is a general-purpose language model specialized in software engineering, spanning code generation and editing, debugging, multi-step reasoning, tool use and function calling, agentic coding, and conversational programming assistance, and it is the successor to the completion-focused 4B dense Mellum model. The architecture builds on the Mixture-of-Experts (64 experts, 8 active) and combines Grouped-Query Attention with 4 KV heads, Sliding Window Attention on three of every four layers, and a single Multi-Token Prediction head that doubles as both an auxiliary pre-training objective and a built-in draft model for speculative decoding; each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint. Pre-training spans approximately 10.6 trillion tokens through a three-phase curriculum that progressively shifts the mixture from diverse web data toward curated code and mathematical content, optimized with Muon under FP8 hybrid precision and a Warmup-Hold-Decay schedule with linear decay to zero. The pre-trained base is extended to a 128K context window via a layer-selective YaRN and then post-trained in two stages (supervised fine-tuning followed by RLVR), yielding two released variants: an Instruct model that answers directly and a Thinking model that emits an explicit reasoning trace before its final answer. Across code generation, math and reasoning, tool use, knowledge, and safety benchmarks, Mellum 2 is competitive with open-weight baselines in the 4B-14B range while running at the per-token compute of a 2.5B dense model. We release the base, instruct, and thinking checkpoints, together with this report on the architecture decisions, data pipeline, and training recipe behind them, under the Apache 2.0 license.