MiniCPM4: Сверхэффективные большие языковые модели на конечных устройствах
MiniCPM4: Ultra-Efficient LLMs on End Devices
June 9, 2025
Авторы: MiniCPM Team, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Xin Cong, Ganqu Cui, Ning Ding, Shengdan Fan, Yewei Fang, Zixuan Fu, Wenyu Guan, Yitong Guan, Junshao Guo, Yufeng Han, Bingxiang He, Yuxiang Huang, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Yinxu Pan, Zekai Qu, Qundong Shi, Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Yukun Yan, Jiarui Yuan, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Ge Zhou, Jie Zhou, Wei Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun
cs.AI
Аннотация
В данной статье представлена модель MiniCPM4, высокоэффективная большая языковая модель (LLM), разработанная специально для устройств конечного пользователя. Мы достигаем этой эффективности за счет системных инноваций в четырех ключевых направлениях: архитектура модели, данные для обучения, алгоритмы обучения и системы вывода. В частности, в области архитектуры модели мы предлагаем InfLLM v2 — обучаемый механизм разреженного внимания, который ускоряет как фазу предварительного заполнения, так и декодирования при обработке длинных контекстов. В отношении данных для обучения мы представляем UltraClean — эффективную и точную стратегию фильтрации и генерации данных для предварительного обучения, а также UltraChat v2 — всеобъемлющий набор данных для контролируемой тонкой настройки. Эти наборы данных позволяют достичь удовлетворительной производительности модели, используя всего 8 триллионов токенов для обучения. В области алгоритмов обучения мы предлагаем ModelTunnel v2 для эффективного поиска стратегий предварительного обучения и улучшаем существующие методы пост-обучения, вводя пошаговое развертывание для сбалансированного по нагрузке обучения с подкреплением и эффективную по данным тернарную LLM, BitCPM. В системах вывода мы предлагаем CPM.cu, который интегрирует разреженное внимание, квантование модели и спекулятивное сэмплирование для эффективного предварительного заполнения и декодирования. Для удовлетворения разнообразных требований устройств MiniCPM4 доступна в двух версиях с 0,5 млрд и 8 млрд параметров соответственно. Результаты всесторонней оценки показывают, что MiniCPM4 превосходит модели с открытым исходным кодом аналогичного размера на множестве тестов, подчеркивая как ее эффективность, так и производительность. В частности, MiniCPM4-8B демонстрирует значительное ускорение по сравнению с Qwen3-8B при обработке длинных последовательностей. Благодаря дальнейшей адаптации MiniCPM4 успешно применяется в различных задачах, включая генерацию надежных опросов и использование инструментов с протоколом контекста модели, что наглядно демонстрирует ее широкую применимость.
English
This paper introduces MiniCPM4, a highly efficient large language model (LLM)
designed explicitly for end-side devices. We achieve this efficiency through
systematic innovation in four key dimensions: model architecture, training
data, training algorithms, and inference systems. Specifically, in terms of
model architecture, we propose InfLLM v2, a trainable sparse attention
mechanism that accelerates both prefilling and decoding phases for long-context
processing. Regarding training data, we propose UltraClean, an efficient and
accurate pre-training data filtering and generation strategy, and UltraChat v2,
a comprehensive supervised fine-tuning dataset. These datasets enable
satisfactory model performance to be achieved using just 8 trillion training
tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient
pre-training strategy search, and improve existing post-training methods by
introducing chunk-wise rollout for load-balanced reinforcement learning and
data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose
CPM.cu that integrates sparse attention, model quantization, and speculative
sampling to achieve efficient prefilling and decoding. To meet diverse
on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B
parameters, respectively. Sufficient evaluation results show that MiniCPM4
outperforms open-source models of similar size across multiple benchmarks,
highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B
demonstrates significant speed improvements over Qwen3-8B when processing long
sequences. Through further adaptation, MiniCPM4 successfully powers diverse
applications, including trustworthy survey generation and tool use with model
context protocol, clearly showcasing its broad usability.