Informe Técnico de Mellum2

Resumen

Presentamos Mellum 2, un modelo de lenguaje de mezcla de expertos (MoE) con pesos abiertos, de 12B parámetros y 2.5B parámetros activos por token. Mellum 2 es un modelo de lenguaje de propósito general especializado en ingeniería de software, que abarca generación y edición de código, depuración, razonamiento multi-paso, uso de herramientas y llamada a funciones, codificación agente y asistencia conversacional en programación; es el sucesor del modelo denso Mellum de 4B enfocado en finalización. La arquitectura se basa en la mezcla de expertos (64 expertos, 8 activos) y combina atención de consulta agrupada con 4 cabezas KV, atención de ventana deslizante en tres de cada cuatro capas, y una única cabeza de predicción de múltiples tokens que funciona tanto como objetivo auxiliar de preentrenamiento como modelo borrador integrado para decodificación especulativa; cada elección fue validada mediante ablación, con la eficiencia de inferencia en GPU comerciales como restricción de diseño. El preentrenamiento abarca aproximadamente 10.6 billones de tokens a través de un currículo de tres fases que desplaza progresivamente la mezcla de datos web diversos hacia contenido curado de código y matemáticas, optimizado con Muon bajo precisión híbrida FP8 y un programa de calentamiento, mantenimiento y decaimiento lineal hasta cero. La base preentrenada se extiende a una ventana de contexto de 128K mediante YaRN selectivo por capas, y luego se posentrena en dos etapas (ajuste fino supervisado seguido de RLVR), produciendo dos variantes publicadas: un modelo Instruct que responde directamente y un modelo Thinking que emite un rastro de razonamiento explícito antes de su respuesta final. En benchmarks de generación de código, matemáticas y razonamiento, uso de herramientas, conocimiento y seguridad, Mellum 2 es competitivo con líneas base de pesos abiertos en el rango de 4B a 14B, mientras opera con el cómputo por token de un modelo denso de 2.5B. Publicamos los puntos de control base, instruct y thinking, junto con este informe sobre las decisiones arquitectónicas, el pipeline de datos y la receta de entrenamiento subyacentes, bajo la licencia Apache 2.0.

English

We present Mellum 2, an open-weight 12B-parameter Mixture-of-Experts (MoE) language model with 2.5B active parameters per token. Mellum 2 is a general-purpose language model specialized in software engineering, spanning code generation and editing, debugging, multi-step reasoning, tool use and function calling, agentic coding, and conversational programming assistance, and it is the successor to the completion-focused 4B dense Mellum model. The architecture builds on the Mixture-of-Experts (64 experts, 8 active) and combines Grouped-Query Attention with 4 KV heads, Sliding Window Attention on three of every four layers, and a single Multi-Token Prediction head that doubles as both an auxiliary pre-training objective and a built-in draft model for speculative decoding; each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint. Pre-training spans approximately 10.6 trillion tokens through a three-phase curriculum that progressively shifts the mixture from diverse web data toward curated code and mathematical content, optimized with Muon under FP8 hybrid precision and a Warmup-Hold-Decay schedule with linear decay to zero. The pre-trained base is extended to a 128K context window via a layer-selective YaRN and then post-trained in two stages (supervised fine-tuning followed by RLVR), yielding two released variants: an Instruct model that answers directly and a Thinking model that emits an explicit reasoning trace before its final answer. Across code generation, math and reasoning, tool use, knowledge, and safety benchmarks, Mellum 2 is competitive with open-weight baselines in the 4B-14B range while running at the per-token compute of a 2.5B dense model. We release the base, instruct, and thinking checkpoints, together with this report on the architecture decisions, data pipeline, and training recipe behind them, under the Apache 2.0 license.