MiniCPM4: Сверхэффективные большие языковые модели на конечных устройствах

Аннотация

В данной статье представлена модель MiniCPM4, высокоэффективная большая языковая модель (LLM), разработанная специально для устройств конечного пользователя. Мы достигаем этой эффективности за счет системных инноваций в четырех ключевых направлениях: архитектура модели, данные для обучения, алгоритмы обучения и системы вывода. В частности, в области архитектуры модели мы предлагаем InfLLM v2 — обучаемый механизм разреженного внимания, который ускоряет как фазу предварительного заполнения, так и декодирования при обработке длинных контекстов. В отношении данных для обучения мы представляем UltraClean — эффективную и точную стратегию фильтрации и генерации данных для предварительного обучения, а также UltraChat v2 — всеобъемлющий набор данных для контролируемой тонкой настройки. Эти наборы данных позволяют достичь удовлетворительной производительности модели, используя всего 8 триллионов токенов для обучения. В области алгоритмов обучения мы предлагаем ModelTunnel v2 для эффективного поиска стратегий предварительного обучения и улучшаем существующие методы пост-обучения, вводя пошаговое развертывание для сбалансированного по нагрузке обучения с подкреплением и эффективную по данным тернарную LLM, BitCPM. В системах вывода мы предлагаем CPM.cu, который интегрирует разреженное внимание, квантование модели и спекулятивное сэмплирование для эффективного предварительного заполнения и декодирования. Для удовлетворения разнообразных требований устройств MiniCPM4 доступна в двух версиях с 0,5 млрд и 8 млрд параметров соответственно. Результаты всесторонней оценки показывают, что MiniCPM4 превосходит модели с открытым исходным кодом аналогичного размера на множестве тестов, подчеркивая как ее эффективность, так и производительность. В частности, MiniCPM4-8B демонстрирует значительное ускорение по сравнению с Qwen3-8B при обработке длинных последовательностей. Благодаря дальнейшей адаптации MiniCPM4 успешно применяется в различных задачах, включая генерацию надежных опросов и использование инструментов с протоколом контекста модели, что наглядно демонстрирует ее широкую применимость.

English

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.

MiniCPM4: Сверхэффективные большие языковые модели на конечных устройствах

MiniCPM4: Ultra-Efficient LLMs on End Devices

Аннотация

Support