Технический отчет Mellum2

Аннотация

Мы представляем Mellum 2 — языковую модель с открытыми весами, содержащую 12 миллиардов параметров в архитектуре «Смесь экспертов» (MoE) с 2,5 миллиарда активных параметров на токен. Mellum 2 — это языковая модель общего назначения, специализирующаяся на программной инженерии, включая генерацию и редактирование кода, отладку, многошаговые рассуждения, использование инструментов и вызов функций, агентное кодирование, а также диалоговую помощь в программировании. Она является преемником плотной 4-миллиардной модели Mellum, ориентированной на завершение кода. Архитектура основана на «Смеси экспертов» (64 эксперта, 8 активных) и объединяет «Групповое запросное внимание» с 4 KV-головами, «Внимание со скользящим окном» на трёх из каждых четырёх слоёв, а также одну голову «Многотокенового предсказания», которая одновременно служит вспомогательной целью предварительного обучения и встроенной моделью-заготовкой для спекулятивного декодирования; каждый из этих выборов был подтверждён с помощью абляции, при этом эффективность инференса на массовых графических процессорах оставалась проектным ограничением. Предварительное обучение включало около 10,6 триллиона токенов по трёхфазному учебному плану, который постепенно смещал смесь данных от разнообразных веб-источников к подобранному коду и математическому контенту; обучение оптимизировалось с помощью Muon в режиме гибридной точности FP8 и с расписанием «Разогрев-Удержание-Затухание» с линейным затуханием до нуля. Предварительно обученная базовая модель была расширена до контекстного окна в 128K с помощью послойного YaRN, а затем дообучена в два этапа (контролируемая тонкая настройка с последующим RLVR). В результате выпущены два варианта: модель Instruct, отвечающая напрямую, и модель Thinking, выдающая явный цепочку рассуждений перед финальным ответом. По тестам генерации кода, математики и рассуждений, использования инструментов, знаний и безопасности Mellum 2 конкурентоспособна с бейзлайнами с открытыми весами в диапазоне 4–14 миллиардов параметров, при этом выполняя вычисления на уровне плотной модели с 2,5 миллиардами параметров на токен. Мы публикуем базовый, инструктивный и мыслительный контрольные точки вместе с данным отчётом об архитектурных решениях, пайплайне данных и рецепте обучения под лицензией Apache 2.0.

English

We present Mellum 2, an open-weight 12B-parameter Mixture-of-Experts (MoE) language model with 2.5B active parameters per token. Mellum 2 is a general-purpose language model specialized in software engineering, spanning code generation and editing, debugging, multi-step reasoning, tool use and function calling, agentic coding, and conversational programming assistance, and it is the successor to the completion-focused 4B dense Mellum model. The architecture builds on the Mixture-of-Experts (64 experts, 8 active) and combines Grouped-Query Attention with 4 KV heads, Sliding Window Attention on three of every four layers, and a single Multi-Token Prediction head that doubles as both an auxiliary pre-training objective and a built-in draft model for speculative decoding; each choice was validated by ablation with inference efficiency on commodity GPUs as a design constraint. Pre-training spans approximately 10.6 trillion tokens through a three-phase curriculum that progressively shifts the mixture from diverse web data toward curated code and mathematical content, optimized with Muon under FP8 hybrid precision and a Warmup-Hold-Decay schedule with linear decay to zero. The pre-trained base is extended to a 128K context window via a layer-selective YaRN and then post-trained in two stages (supervised fine-tuning followed by RLVR), yielding two released variants: an Instruct model that answers directly and a Thinking model that emits an explicit reasoning trace before its final answer. Across code generation, math and reasoning, tool use, knowledge, and safety benchmarks, Mellum 2 is competitive with open-weight baselines in the 4B-14B range while running at the per-token compute of a 2.5B dense model. We release the base, instruct, and thinking checkpoints, together with this report on the architecture decisions, data pipeline, and training recipe behind them, under the Apache 2.0 license.