MiniCPM4: Ultra-efficiënte LLM's op eindapparaten

Samenvatting

Dit artikel introduceert MiniCPM4, een zeer efficiënt groot taalmodel (LLM) dat specifiek is ontworpen voor eindapparaten. We bereiken deze efficiëntie door systematische innovatie op vier belangrijke dimensies: modelarchitectuur, trainingsdata, trainingsalgoritmen en inferentiesystemen. Specifiek stellen we, wat betreft modelarchitectuur, InfLLM v2 voor, een trainbaar sparse attention-mechanisme dat zowel de prefilling- als decoderingfasen versnelt voor lange-contextverwerking. Wat betreft trainingsdata introduceren we UltraClean, een efficiënte en nauwkeurige strategie voor het filteren en genereren van pre-trainingsdata, en UltraChat v2, een uitgebreide dataset voor supervised fine-tuning. Deze datasets maken het mogelijk om bevredigende modelprestaties te bereiken met slechts 8 biljoen trainings-tokens. Wat betreft trainingsalgoritmen stellen we ModelTunnel v2 voor voor efficiënte pre-trainingsstrategiezoektochten, en verbeteren we bestaande post-trainingsmethoden door chunk-wise rollout in te voeren voor load-balanced reinforcement learning en data-efficiënt ternair LLM, BitCPM. Wat betreft inferentiesystemen introduceren we CPM.cu, dat sparse attention, modelkwantisatie en speculatieve sampling integreert om efficiënte prefilling en decodering te bereiken. Om aan diverse on-device-eisen te voldoen, is MiniCPM4 beschikbaar in twee versies, met respectievelijk 0,5B en 8B parameters. Uitgebreide evaluatieresultaten tonen aan dat MiniCPM4 open-source modellen van vergelijkbare grootte overtreft op meerdere benchmarks, wat zowel de efficiëntie als effectiviteit benadrukt. Opmerkelijk is dat MiniCPM4-8B aanzienlijke snelheidsverbeteringen laat zien ten opzichte van Qwen3-8B bij het verwerken van lange sequenties. Door verdere aanpassing maakt MiniCPM4 diverse toepassingen mogelijk, waaronder het genereren van betrouwbare enquêtes en toolgebruik met modelcontextprotocol, wat duidelijk de brede bruikbaarheid aantoont.

English

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.

MiniCPM4: Ultra-efficiënte LLM's op eindapparaten

MiniCPM4: Ultra-Efficient LLMs on End Devices

Samenvatting

Support