Relatório Técnico do MiMo-V2-Flash

Resumo

Apresentamos o MiMo-V2-Flash, um modelo do tipo Mixture-of-Experts (MoE) com 309B de parâmetros totais e 15B de parâmetros ativos, projetado para capacidades rápidas e robustas de raciocínio e ação autônoma (agêntica). O MiMo-V2-Flash adota uma arquitetura de atenção híbrida que intercala Atenção por Janela Deslizante (Sliding Window Attention - SWA) com atenção global, utilizando uma janela deslizante de 128 *tokens* sob uma razão híbrida de 5:1. O modelo foi pré-treinado em 27 trilhões de *tokens* com Predição Multi-Token (Multi-Token Prediction - MTP), empregando um comprimento de contexto nativo de 32k e subsequentemente estendido para 256k. Para escalonar eficientemente a computação pós-treinamento, o MiMo-V2-Flash introduz um novo paradigma de Destilação On-Policy com Múltiplos Professores (Multi-Teacher On-Policy Distillation - MOPD). Nesta estrutura, professores especializados por domínio (por exemplo, treinados via aprendizado por reforço em larga escala) fornecem recompensas densas e em nível de *token*, permitindo que o modelo estudante domine perfeitamente a expertise do professor. O MiMo-V2-Flash rivaliza com modelos de código aberto de primeira linha, como DeepSeek-V3.2 e Kimi-K2, apesar de usar apenas 1/2 e 1/3 de seus parâmetros totais, respectivamente. Durante a inferência, ao reaproveitar o MTP como um modelo rascunho para decodificação especulativa, o MiMo-V2-Flash alcança um comprimento de aceitação de até 3,6 e uma aceleração de velocidade de decodificação de 2,6x com três camadas MTP. Disponibilizamos em código aberto tanto os pesos do modelo quanto os pesos da camada MTP de três níveis para fomentar a pesquisa aberta e a colaboração comunitária.

English

We present MiMo-V2-Flash, a Mixture-of-Experts (MoE) model with 309B total parameters and 15B active parameters, designed for fast, strong reasoning and agentic capabilities. MiMo-V2-Flash adopts a hybrid attention architecture that interleaves Sliding Window Attention (SWA) with global attention, with a 128-token sliding window under a 5:1 hybrid ratio. The model is pre-trained on 27 trillion tokens with Multi-Token Prediction (MTP), employing a native 32k context length and subsequently extended to 256k. To efficiently scale post-training compute, MiMo-V2-Flash introduces a novel Multi-Teacher On-Policy Distillation (MOPD) paradigm. In this framework, domain-specialized teachers (e.g., trained via large-scale reinforcement learning) provide dense and token-level reward, enabling the student model to perfectly master teacher expertise. MiMo-V2-Flash rivals top-tier open-weight models such as DeepSeek-V3.2 and Kimi-K2, despite using only 1/2 and 1/3 of their total parameters, respectively. During inference, by repurposing MTP as a draft model for speculative decoding, MiMo-V2-Flash achieves up to 3.6 acceptance length and 2.6x decoding speedup with three MTP layers. We open-source both the model weights and the three-layer MTP weights to foster open research and community collaboration.