MiMo-V2-Flash 기술 보고서
MiMo-V2-Flash Technical Report
January 6, 2026
저자: Bangjun Xiao, Bingquan Xia, Bo Yang, Bofei Gao, Bowen Shen, Chen Zhang, Chenhong He, Chiheng Lou, Fuli Luo, Gang Wang, Gang Xie, Hailin Zhang, Hanglong Lv, Hanyu Li, Heyu Chen, Hongshen Xu, Houbin Zhang, Huaqiu Liu, Jiangshan Duo, Jianyu Wei, Jiebao Xiao, Jinhao Dong, Jun Shi, Junhao Hu, Kainan Bao, Kang Zhou, Lei Li, Liang Zhao, Linghao Zhang, Peidian Li, Qianli Chen, Shaohui Liu, Shihua Yu, Shijie Cao, Shimao Chen, Shouqiu Yu, Shuo Liu, Tianling Zhou, Weijiang Su, Weikun Wang, Wenhan Ma, Xiangwei Deng, Bohan Mao, Bowen Ye, Can Cai, Chenghua Wang, Chengxuan Zhu, Chong Ma, Chun Chen, Chunan Li, Dawei Zhu, Deshan Xiao, Dong Zhang, Duo Zhang, Fangyue Liu, Feiyu Yang, Fengyuan Shi, Guoan Wang, Hao Tian, Hao Wu, Heng Qu, Hongfei Yi, Hongxu An, Hongyi Guan, Xing Zhang, Yifan Song, Yihan Yan, Yihao Zhao, Yingchun Lai, Yizhao Gao, Yu Cheng, Yuanyuan Tian, Yudong Wang, Zhen Tang, Zhengju Tang, Zhengtao Wen, Zhichao Song, Zhixian Zheng, Zihan Jiang, Jian Wen, Jiarui Sun, Jiawei Li, Jinlong Xue, Jun Xia, Kai Fang, Menghang Zhu, Nuo Chen, Qian Tu, Qihao Zhang, Qiying Wang, Rang Li, Rui Ma, Shaolei Zhang, Shengfan Wang, Shicheng Li, Shuhao Gu, Shuhuai Ren, Sirui Deng, Tao Guo, Tianyang Lu, Weiji Zhuang, Weikang Zhang, Weimin Xiong, Wenshan Huang, Wenyu Yang, Xin Zhang, Xing Yong, Xu Wang, Xueyang Xie, Yilin Jiang, Yixin Yang, Yongzhe He, Yu Tu, Yuanliang Dong, Yuchen Liu, Yue Ma, Yue Yu, Yuxing Xiang, Zhaojun Huang, Zhenru Lin, Zhipeng Xu, Zhiyang Chen, Zhonghua Deng, Zihan Zhang, Zihao Yue
cs.AI
초록
MiMo-V2-Flash는 빠르고 강력한 추론 능력과 에이전트 능력을 위해 설계된 309B 전체 파라미터와 15B 활성 파라미터를 가진 Mixture-of-Experts(MoE) 모델입니다. MiMo-V2-Flash는 5:1 혼합 비율로 128-토큰 슬라이딩 윈도우를 사용하여 Sliding Window Attention(SWA)과 글로벌 어텐션을 교차 적용하는 하이브리드 어텐션 아키텍처를 채택했습니다. 본 모델은 32k 기본 컨텍스트 길이로 27조 토큰을 Multi-Token Prediction(MTP) 방식으로 사전 학습한 후, 이를 256k까지 확장했습니다. 학습 후 컴퓨팅 자원을 효율적으로 확장하기 위해 MiMo-V2-Flash는 새로운 Multi-Teacher On-Policy Distillation(MOPD) 패러다임을 도입했습니다. 이 프레임워크에서는 도메인 전문 교사 모델(예: 대규모 강화 학습으로 학습된)이 밀집된 토큰 수준의 보상을 제공하여 학생 모델이 교사의 전문성을 완벽하게 습득할 수 있게 합니다. MiMo-V2-Flash는 각각 DeepSeek-V3.2 및 Kimi-K2의 전체 파라미터 수의 1/2, 1/3만 사용함에도 불구하고 이들과 동급의 성능을 보입니다. 추론 시 MTP를 스펙츌레이티브 디코딩을 위한 드래프트 모델로 재활용함으로써, MiMo-V2-Flash는 3개의 MTP 레이어를 사용하여 최대 3.6의 수용 길이와 2.6배의 디코딩 속도 향상을 달성합니다. 우리는 모델 가중치와 3계층 MTP 가중치를 모두 오픈소스로 공개하여 개방형 연구와 커뮤니티 협력을 촉진하고자 합니다.
English
We present MiMo-V2-Flash, a Mixture-of-Experts (MoE) model with 309B total parameters and 15B active parameters, designed for fast, strong reasoning and agentic capabilities. MiMo-V2-Flash adopts a hybrid attention architecture that interleaves Sliding Window Attention (SWA) with global attention, with a 128-token sliding window under a 5:1 hybrid ratio. The model is pre-trained on 27 trillion tokens with Multi-Token Prediction (MTP), employing a native 32k context length and subsequently extended to 256k. To efficiently scale post-training compute, MiMo-V2-Flash introduces a novel Multi-Teacher On-Policy Distillation (MOPD) paradigm. In this framework, domain-specialized teachers (e.g., trained via large-scale reinforcement learning) provide dense and token-level reward, enabling the student model to perfectly master teacher expertise. MiMo-V2-Flash rivals top-tier open-weight models such as DeepSeek-V3.2 and Kimi-K2, despite using only 1/2 and 1/3 of their total parameters, respectively. During inference, by repurposing MTP as a draft model for speculative decoding, MiMo-V2-Flash achieves up to 3.6 acceptance length and 2.6x decoding speedup with three MTP layers. We open-source both the model weights and the three-layer MTP weights to foster open research and community collaboration.