ChatPaper.aiChatPaper

MiniCPM4: Ultra-effiziente LLMs auf Endgeräten

MiniCPM4: Ultra-Efficient LLMs on End Devices

June 9, 2025
Autoren: MiniCPM Team, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Xin Cong, Ganqu Cui, Ning Ding, Shengdan Fan, Yewei Fang, Zixuan Fu, Wenyu Guan, Yitong Guan, Junshao Guo, Yufeng Han, Bingxiang He, Yuxiang Huang, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Yinxu Pan, Zekai Qu, Qundong Shi, Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Yukun Yan, Jiarui Yuan, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Ge Zhou, Jie Zhou, Wei Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun
cs.AI

Zusammenfassung

Dieses Papier stellt MiniCPM4 vor, ein hocheffizientes großes Sprachmodell (LLM), das speziell für Endgeräte entwickelt wurde. Wir erreichen diese Effizienz durch systematische Innovationen in vier Schlüsselbereichen: Modellarchitektur, Trainingsdaten, Trainingsalgorithmen und Inferenzsysteme. Im Bereich der Modellarchitektur präsentieren wir InfLLM v2, einen trainierbaren spärlichen Aufmerksamkeitsmechanismus, der sowohl die Vorbereitungs- als auch die Dekodierungsphase für die Verarbeitung langer Kontexte beschleunigt. Im Hinblick auf Trainingsdaten schlagen wir UltraClean vor, eine effiziente und präzise Strategie zur Filterung und Generierung von Vortrainingsdaten, sowie UltraChat v2, einen umfassenden Datensatz für überwachtes Feintuning. Diese Datensätze ermöglichen es, zufriedenstellende Modellleistungen mit nur 8 Billionen Trainings-Tokens zu erreichen. Im Bereich der Trainingsalgorithmen präsentieren wir ModelTunnel v2 für die effiziente Suche nach Vortrainingsstrategien und verbessern bestehende Post-Trainingsmethoden durch die Einführung von chunk-weiser Rollout für lastausgeglichenes Reinforcement Learning und das dateneffiziente ternäre LLM, BitCPM. Im Bereich der Inferenzsysteme schlagen wir CPM.cu vor, das spärliche Aufmerksamkeit, Modellquantisierung und spekulatives Sampling integriert, um effiziente Vorbereitungs- und Dekodierungsprozesse zu ermöglichen. Um verschiedenen Anforderungen auf Endgeräten gerecht zu werden, ist MiniCPM4 in zwei Versionen mit 0,5 Milliarden bzw. 8 Milliarden Parametern verfügbar. Umfangreiche Evaluierungsergebnisse zeigen, dass MiniCPM4 Open-Source-Modelle ähnlicher Größe in mehreren Benchmarks übertrifft, was sowohl seine Effizienz als auch seine Wirksamkeit unterstreicht. Besonders hervorzuheben ist, dass MiniCPM4-8B bei der Verarbeitung langer Sequenzen signifikante Geschwindigkeitsvorteile gegenüber Qwen3-8B aufweist. Durch weitere Anpassungen ermöglicht MiniCPM4 erfolgreich diverse Anwendungen, einschließlich der Generierung vertrauenswürdiger Umfragen und der Werkzeugnutzung mit Modellkontextprotokollen, was seine breite Einsetzbarkeit deutlich unterstreicht.
English
This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.
PDF722June 10, 2025