MiniCPM4: Modelli Linguistici Ultra-Efficienti su Dispositivi Terminali

Abstract

Questo articolo introduce MiniCPM4, un modello linguistico di grandi dimensioni (LLM) altamente efficiente progettato specificamente per dispositivi lato utente. Raggiungiamo questa efficienza attraverso innovazioni sistematiche in quattro dimensioni chiave: architettura del modello, dati di addestramento, algoritmi di addestramento e sistemi di inferenza. Nello specifico, per quanto riguarda l'architettura del modello, proponiamo InfLLM v2, un meccanismo di attenzione sparsa addestrabile che accelera sia la fase di prefilling che quella di decodifica per l'elaborazione di contesti lunghi. Per i dati di addestramento, proponiamo UltraClean, una strategia efficiente e accurata di filtraggio e generazione di dati per il pre-training, e UltraChat v2, un dataset completo per il fine-tuning supervisionato. Questi dataset consentono di ottenere prestazioni soddisfacenti del modello utilizzando solo 8 trilioni di token di addestramento. Per gli algoritmi di addestramento, proponiamo ModelTunnel v2 per una ricerca efficiente di strategie di pre-training e miglioriamo i metodi di post-training esistenti introducendo il chunk-wise rollout per l'apprendimento per rinforzo bilanciato e il modello ternario efficiente in termini di dati, BitCPM. Per i sistemi di inferenza, proponiamo CPM.cu che integra attenzione sparsa, quantizzazione del modello e campionamento speculativo per ottenere un prefilling e una decodifica efficienti. Per soddisfare diverse esigenze on-device, MiniCPM4 è disponibile in due versioni, rispettivamente con 0,5 miliardi e 8 miliardi di parametri. I risultati di valutazione mostrano che MiniCPM4 supera i modelli open-source di dimensioni simili su più benchmark, evidenziando sia la sua efficienza che la sua efficacia. In particolare, MiniCPM4-8B dimostra miglioramenti significativi nella velocità rispetto a Qwen3-8B durante l'elaborazione di sequenze lunghe. Attraverso ulteriori adattamenti, MiniCPM4 alimenta con successo diverse applicazioni, tra cui la generazione affidabile di sondaggi e l'uso di strumenti con il protocollo di contesto del modello, dimostrando chiaramente la sua ampia usabilità.

English

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.

MiniCPM4: Modelli Linguistici Ultra-Efficienti su Dispositivi Terminali

MiniCPM4: Ultra-Efficient LLMs on End Devices

Abstract

Support