Mellum2 Technischer Bericht
Mellum2 Technical Report
May 29, 2026
Autoren: Marko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko
cs.AI
Zusammenfassung
Wir präsentieren Mellum 2, ein Sprachmodell mit offenen Gewichten, 12 Milliarden Parametern und Mixture-of-Experts (MoE)-Architektur (64 Experten, 8 aktiv) bei 2,5 Milliarden aktiven Parametern pro Token. Mellum 2 ist ein allgemeinsprachliches Sprachmodell, das auf Softwareentwicklung spezialisiert ist – einschließlich Code-Generierung und -Bearbeitung, Debugging, mehrstufigem Denken, Werkzeugnutzung und Funktionsaufruf, agentischem Codieren sowie konversationeller Programmierunterstützung – und es ist der Nachfolger des auf Vervollständigung ausgerichteten dichten 4B-Modells Mellum. Die Architektur baut auf dem Mixture-of-Experts (64 Experten, 8 aktiv) auf und kombiniert Grouped-Query Attention mit 4 KV-Köpfen, Sliding Window Attention auf drei von vier Schichten sowie einen einzelnen Multi-Token Prediction Head, der sowohl als Hilfsziel beim Vortraining als auch als eingebautes Draft-Modell für spekulatives Decodieren dient; jede Wahl wurde durch Ablation validiert, wobei die Inferenzeffizienz auf handelsüblichen GPUs als Konstruktionsbeschränkung diente. Das Vortraining umfasst etwa 10,6 Billionen Token in einem dreiphasigen Lehrplan, der die Mischung schrittweise von vielfältigen Webdaten hin zu kuratierten Code- und mathematischen Inhalten verschiebt, optimiert mit Muon unter FP8-Hybridpräzision und einem Warmup-Hold-Decay-Zeitplan mit linearem Abfall auf Null. Die vortrainierte Basis wird über ein schichtselektives YaRN auf ein 128K-Kontextfenster erweitert und dann in zwei Stufen nachtrainiert (überwachte Feinabstimmung, gefolgt von RLVR), wobei zwei veröffentlichte Varianten entstehen: ein Instruct-Modell, das direkt antwortet, und ein Thinking-Modell, das vor seiner endgültigen Antwort eine explizite Denkkette ausgibt. Bei Benchmarks zur Codegenerierung, Mathematik und Reasoning, Werkzeugnutzung, Wissen und Sicherheit ist Mellum 2 wettbewerbsfähig mit Open-Weight-Baselines im Bereich 4B-14B, während es den Rechenaufwand pro Token eines dichten 2,5B-Modells erreicht. Wir veröffentlichen die Checkpoints für Base, Instruct und Thinking zusammen mit diesem Bericht über die Architekturentscheidungen, die Datenpipeline und das Trainingsrezept dahinter unter der Apache-2.0-Lizenz.
English
We present Mellum 2, an open-weight 12B-parameter Mixture-of-Experts (MoE) language model with 2.5B active parameters per token. Mellum 2 is a general-purpose language model specialized in software engineering, spanning code generation and editing, debugging, multi-step reasoning, tool use and function calling, agentic coding, and conversational programming assistance, and it is the successor to the completion-focused 4B dense Mellum model. The architecture builds on the Mixture-of-Experts (64 experts, 8 active) and combines Grouped-Query Attention with 4 KV heads, Sliding Window Attention on three of every four layers, and a single Multi-Token Prediction head that doubles as both an auxiliary pre-training objective and a built-in draft model for speculative decoding; each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint. Pre-training spans approximately 10.6 trillion tokens through a three-phase curriculum that progressively shifts the mixture from diverse web data toward curated code and mathematical content, optimized with Muon under FP8 hybrid precision and a Warmup-Hold-Decay schedule with linear decay to zero. The pre-trained base is extended to a 128K context window via a layer-selective YaRN and then post-trained in two stages (supervised fine-tuning followed by RLVR), yielding two released variants: an Instruct model that answers directly and a Thinking model that emits an explicit reasoning trace before its final answer. Across code generation, math and reasoning, tool use, knowledge, and safety benchmarks, Mellum 2 is competitive with open-weight baselines in the 4B-14B range while running at the per-token compute of a 2.5B dense model. We release the base, instruct, and thinking checkpoints, together with this report on the architecture decisions, data pipeline, and training recipe behind them, under the Apache 2.0 license.