Rapport technique Mellum2

Résumé

Nous présentons Mellum 2, un modèle de langage à mélange d'experts (MoE) à 12 milliards de paramètres en accès ouvert, avec 2,5 milliards de paramètres actifs par jeton. Mellum 2 est un modèle de langage généraliste spécialisé en génie logiciel, couvrant la génération et l'édition de code, le débogage, le raisonnement multi-étapes, l'utilisation d'outils et l'appel de fonctions, le codage agentique, et l'assistance à la programmation conversationnelle. Il succède au modèle dense Mellum de 4 milliards de paramètres, axé sur la complétion. L'architecture repose sur un mélange d'experts (64 experts, 8 actifs) et combine l'attention par requêtes groupées avec 4 têtes KV, une attention à fenêtre glissante sur trois couches sur quatre, et une seule tête de prédiction multi-jetons qui sert à la fois d'objectif de pré-entraînement auxiliaire et de modèle d'ébauche intégré pour le décodage spéculatif ; chaque choix a été validé par ablation, l'efficacité d'inférence sur des GPU grand public étant une contrainte de conception. Le pré-entraînement couvre environ 10,6 billions de jetons suivant un programme en trois phases qui fait évoluer progressivement le mélange de données web variées vers du code et des contenus mathématiques sélectionnés, optimisé avec Muon sous précision mixte FP8 et un planning Warmup-Hold-Decay avec décroissance linéaire jusqu'à zéro. La base pré-entraînée est étendue à une fenêtre de contexte de 128K via un YaRN sélectif par couche, puis soumise à un post-entraînement en deux étapes (fine-tuning supervisé suivi de RLVR), donnant lieu à deux variantes publiées : un modèle Instruct qui répond directement et un modèle Thinking qui émet une trace de raisonnement explicite avant sa réponse finale. Sur les benchmarks de génération de code, de mathématiques et de raisonnement, d'utilisation d'outils, de connaissances et de sécurité, Mellum 2 est compétitif face aux modèles en accès ouvert de la gamme 4B–14B, tout en fonctionnant avec le calcul par jeton d'un modèle dense de 2,5 milliards de paramètres. Nous publions les points de contrôle (checkpoints) base, instruct et thinking, ainsi que ce rapport sur les décisions architecturales, le pipeline de données et la recette d'entraînement qui les sous-tendent, sous licence Apache 2.0.

English

We present Mellum 2, an open-weight 12B-parameter Mixture-of-Experts (MoE) language model with 2.5B active parameters per token. Mellum 2 is a general-purpose language model specialized in software engineering, spanning code generation and editing, debugging, multi-step reasoning, tool use and function calling, agentic coding, and conversational programming assistance, and it is the successor to the completion-focused 4B dense Mellum model. The architecture builds on the Mixture-of-Experts (64 experts, 8 active) and combines Grouped-Query Attention with 4 KV heads, Sliding Window Attention on three of every four layers, and a single Multi-Token Prediction head that doubles as both an auxiliary pre-training objective and a built-in draft model for speculative decoding; each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint. Pre-training spans approximately 10.6 trillion tokens through a three-phase curriculum that progressively shifts the mixture from diverse web data toward curated code and mathematical content, optimized with Muon under FP8 hybrid precision and a Warmup-Hold-Decay schedule with linear decay to zero. The pre-trained base is extended to a 128K context window via a layer-selective YaRN and then post-trained in two stages (supervised fine-tuning followed by RLVR), yielding two released variants: an Instruct model that answers directly and a Thinking model that emits an explicit reasoning trace before its final answer. Across code generation, math and reasoning, tool use, knowledge, and safety benchmarks, Mellum 2 is competitive with open-weight baselines in the 4B-14B range while running at the per-token compute of a 2.5B dense model. We release the base, instruct, and thinking checkpoints, together with this report on the architecture decisions, data pipeline, and training recipe behind them, under the Apache 2.0 license.