MiniCPM4: Modelos de Linguagem de Grande Porte Ultraeficientes em Dispositivos Finais

Resumo

Este artigo apresenta o MiniCPM4, um modelo de linguagem de grande escala (LLM) altamente eficiente projetado especificamente para dispositivos de ponta. Alcançamos essa eficiência por meio de inovações sistemáticas em quatro dimensões principais: arquitetura do modelo, dados de treinamento, algoritmos de treinamento e sistemas de inferência. Especificamente, em termos de arquitetura do modelo, propomos o InfLLM v2, um mecanismo de atenção esparsa treinável que acelera tanto a fase de preenchimento quanto a de decodificação para o processamento de contextos longos. Em relação aos dados de treinamento, propomos o UltraClean, uma estratégia eficiente e precisa de filtragem e geração de dados de pré-treinamento, e o UltraChat v2, um conjunto de dados abrangente para ajuste fino supervisionado. Esses conjuntos de dados permitem alcançar um desempenho satisfatório do modelo utilizando apenas 8 trilhões de tokens de treinamento. Quanto aos algoritmos de treinamento, propomos o ModelTunnel v2 para uma busca eficiente de estratégias de pré-treinamento, e melhoramos os métodos de pós-treinamento existentes ao introduzir o rollout em blocos para aprendizado por reforço com balanceamento de carga e o LLM ternário eficiente em dados, BitCPM. Em relação aos sistemas de inferência, propomos o CPM.cu, que integra atenção esparsa, quantização de modelo e amostragem especulativa para alcançar preenchimento e decodificação eficientes. Para atender a diversas necessidades em dispositivos, o MiniCPM4 está disponível em duas versões, com 0,5 bilhão e 8 bilhões de parâmetros, respectivamente. Resultados de avaliação suficientes mostram que o MiniCPM4 supera modelos de código aberto de tamanho similar em vários benchmarks, destacando tanto sua eficiência quanto sua eficácia. Notavelmente, o MiniCPM4-8B demonstra melhorias significativas de velocidade em relação ao Qwen3-8B ao processar sequências longas. Por meio de adaptações adicionais, o MiniCPM4 alimenta com sucesso diversas aplicações, incluindo a geração confiável de pesquisas e o uso de ferramentas com protocolo de contexto de modelo, demonstrando claramente sua ampla usabilidade.

English

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.

MiniCPM4: Modelos de Linguagem de Grande Porte Ultraeficientes em Dispositivos Finais

MiniCPM4: Ultra-Efficient LLMs on End Devices

Resumo

Support