MiniCPM4 : Modèles de langage ultra-efficaces sur les appareils terminaux

Résumé

Cet article présente MiniCPM4, un modèle de langage de grande taille (LLM) hautement efficace conçu spécifiquement pour les appareils terminaux. Nous atteignons cette efficacité grâce à des innovations systématiques dans quatre dimensions clés : l'architecture du modèle, les données d'entraînement, les algorithmes d'entraînement et les systèmes d'inférence. Plus précisément, en termes d'architecture de modèle, nous proposons InfLLM v2, un mécanisme d'attention parcimonieuse entraînable qui accélère à la fois les phases de préremplissage et de décodage pour le traitement de contextes longs. Concernant les données d'entraînement, nous proposons UltraClean, une stratégie efficace et précise de filtrage et de génération de données de pré-entraînement, ainsi qu'UltraChat v2, un ensemble de données complet pour le réglage fin supervisé. Ces ensembles de données permettent d'atteindre des performances satisfaisantes du modèle avec seulement 8 billions de tokens d'entraînement. En ce qui concerne les algorithmes d'entraînement, nous proposons ModelTunnel v2 pour une recherche efficace de stratégies de pré-entraînement, et nous améliorons les méthodes de post-entraînement existantes en introduisant un déploiement par segments pour un apprentissage par renforcement équilibré en charge et un LLM ternaire économe en données, BitCPM. Concernant les systèmes d'inférence, nous proposons CPM.cu qui intègre l'attention parcimonieuse, la quantification du modèle et l'échantillonnage spéculatif pour réaliser un préremplissage et un décodage efficaces. Pour répondre à diverses exigences sur appareil, MiniCPM4 est disponible en deux versions, avec respectivement 0,5 milliard et 8 milliards de paramètres. Des résultats d'évaluation approfondis montrent que MiniCPM4 surpasse les modèles open source de taille similaire sur plusieurs benchmarks, mettant en évidence à la fois son efficacité et son efficience. Notamment, MiniCPM4-8B démontre des améliorations significatives de vitesse par rapport à Qwen3-8B lors du traitement de longues séquences. Grâce à une adaptation supplémentaire, MiniCPM4 alimente avec succès diverses applications, notamment la génération d'enquêtes fiables et l'utilisation d'outils avec le protocole de contexte de modèle, démontrant clairement sa large applicabilité.

English

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.