ChatPaper.aiChatPaper

Informe Técnico de Mellum2

Mellum2 Technical Report

May 29, 2026
Autores: Marko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko
cs.AI

Resumen

Presentamos Mellum 2, un modelo de lenguaje de mezcla de expertos (MoE) con pesos abiertos, de 12B parámetros y 2.5B parámetros activos por token. Mellum 2 es un modelo de lenguaje de propósito general especializado en ingeniería de software, que abarca generación y edición de código, depuración, razonamiento multi-paso, uso de herramientas y llamada a funciones, codificación agente y asistencia conversacional en programación; es el sucesor del modelo denso Mellum de 4B enfocado en finalización. La arquitectura se basa en la mezcla de expertos (64 expertos, 8 activos) y combina atención de consulta agrupada con 4 cabezas KV, atención de ventana deslizante en tres de cada cuatro capas, y una única cabeza de predicción de múltiples tokens que funciona tanto como objetivo auxiliar de preentrenamiento como modelo borrador integrado para decodificación especulativa; cada elección fue validada mediante ablación, con la eficiencia de inferencia en GPU comerciales como restricción de diseño. El preentrenamiento abarca aproximadamente 10.6 billones de tokens a través de un currículo de tres fases que desplaza progresivamente la mezcla de datos web diversos hacia contenido curado de código y matemáticas, optimizado con Muon bajo precisión híbrida FP8 y un programa de calentamiento, mantenimiento y decaimiento lineal hasta cero. La base preentrenada se extiende a una ventana de contexto de 128K mediante YaRN selectivo por capas, y luego se posentrena en dos etapas (ajuste fino supervisado seguido de RLVR), produciendo dos variantes publicadas: un modelo Instruct que responde directamente y un modelo Thinking que emite un rastro de razonamiento explícito antes de su respuesta final. En benchmarks de generación de código, matemáticas y razonamiento, uso de herramientas, conocimiento y seguridad, Mellum 2 es competitivo con líneas base de pesos abiertos en el rango de 4B a 14B, mientras opera con el cómputo por token de un modelo denso de 2.5B. Publicamos los puntos de control base, instruct y thinking, junto con este informe sobre las decisiones arquitectónicas, el pipeline de datos y la receta de entrenamiento subyacentes, bajo la licencia Apache 2.0.
English
We present Mellum 2, an open-weight 12B-parameter Mixture-of-Experts (MoE) language model with 2.5B active parameters per token. Mellum 2 is a general-purpose language model specialized in software engineering, spanning code generation and editing, debugging, multi-step reasoning, tool use and function calling, agentic coding, and conversational programming assistance, and it is the successor to the completion-focused 4B dense Mellum model. The architecture builds on the Mixture-of-Experts (64 experts, 8 active) and combines Grouped-Query Attention with 4 KV heads, Sliding Window Attention on three of every four layers, and a single Multi-Token Prediction head that doubles as both an auxiliary pre-training objective and a built-in draft model for speculative decoding; each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint. Pre-training spans approximately 10.6 trillion tokens through a three-phase curriculum that progressively shifts the mixture from diverse web data toward curated code and mathematical content, optimized with Muon under FP8 hybrid precision and a Warmup-Hold-Decay schedule with linear decay to zero. The pre-trained base is extended to a 128K context window via a layer-selective YaRN and then post-trained in two stages (supervised fine-tuning followed by RLVR), yielding two released variants: an Instruct model that answers directly and a Thinking model that emits an explicit reasoning trace before its final answer. Across code generation, math and reasoning, tool use, knowledge, and safety benchmarks, Mellum 2 is competitive with open-weight baselines in the 4B-14B range while running at the per-token compute of a 2.5B dense model. We release the base, instruct, and thinking checkpoints, together with this report on the architecture decisions, data pipeline, and training recipe behind them, under the Apache 2.0 license.