MiniCPM4: Modelos de Lenguaje Ultra-Eficientes en Dispositivos Finales

Resumen

Este artículo presenta MiniCPM4, un modelo de lenguaje grande (LLM) altamente eficiente diseñado específicamente para dispositivos de usuario final. Logramos esta eficiencia mediante innovaciones sistemáticas en cuatro dimensiones clave: arquitectura del modelo, datos de entrenamiento, algoritmos de entrenamiento y sistemas de inferencia. Específicamente, en cuanto a la arquitectura del modelo, proponemos InfLLM v2, un mecanismo de atención dispersa entrenable que acelera tanto la fase de prefilling como la de decodificación para el procesamiento de contextos largos. Respecto a los datos de entrenamiento, proponemos UltraClean, una estrategia eficiente y precisa de filtrado y generación de datos de preentrenamiento, y UltraChat v2, un conjunto de datos integral para ajuste fino supervisado. Estos conjuntos de datos permiten alcanzar un rendimiento satisfactorio del modelo utilizando solo 8 billones de tokens de entrenamiento. En cuanto a los algoritmos de entrenamiento, proponemos ModelTunnel v2 para la búsqueda eficiente de estrategias de preentrenamiento, y mejoramos los métodos de postentrenamiento existentes mediante la introducción de chunk-wise rollout para aprendizaje por refuerzo equilibrado en carga y el LLM ternario eficiente en datos, BitCPM. Respecto a los sistemas de inferencia, proponemos CPM.cu, que integra atención dispersa, cuantización del modelo y muestreo especulativo para lograr un prefilling y decodificación eficientes. Para satisfacer diversos requisitos en dispositivos, MiniCPM4 está disponible en dos versiones, con 0.5B y 8B parámetros, respectivamente. Los resultados de evaluación suficientes muestran que MiniCPM4 supera a modelos de código abierto de tamaño similar en múltiples benchmarks, destacando tanto su eficiencia como su efectividad. Notablemente, MiniCPM4-8B demuestra mejoras significativas en velocidad sobre Qwen3-8B al procesar secuencias largas. Mediante una adaptación adicional, MiniCPM4 impulsa con éxito diversas aplicaciones, incluyendo la generación confiable de encuestas y el uso de herramientas con protocolo de contexto del modelo, demostrando claramente su amplia usabilidad.

English

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.