MiniCPM-V 4.5: Оптимизация многоязычных языковых моделей через архитектуру, данные и методику обучения

Аннотация

Мультимодальные крупные языковые модели (MLLMs) стремительно развиваются и представляют собой передовой рубеж в области искусственного интеллекта. Однако их эффективность в обучении и выводе стала ключевым ограничением, препятствующим их более широкому распространению и масштабируемости. Для решения этих проблем мы представляем MiniCPM-V 4.5 — модель с 8 миллиардами параметров, разработанную для высокой эффективности и производительности. Мы внедрили три ключевых улучшения в архитектуру модели, стратегию работы с данными и метод обучения: унифицированную архитектуру 3D-Resampler для компактного кодирования изображений и видео, унифицированную парадигму обучения для работы с документами и распознавания текста без сложной обработки данных, а также гибридную стратегию обучения с подкреплением для эффективного выполнения задач как в коротких, так и в длинных режимах рассуждений. Результаты комплексных экспериментов в рамках оценки OpenCompass показывают, что MiniCPM-V 4.5 превосходит широко используемые проприетарные модели, такие как GPT-4o-latest, и значительно более крупные открытые модели, такие как Qwen2.5-VL 72B. Примечательно, что высокая производительность достигается с выдающейся эффективностью. Например, на широко применяемом бенчмарке VideoMME MiniCPM-V 4.5 демонстрирует наилучшие результаты среди моделей с размером менее 30 миллиардов параметров, используя всего 46,7% затрат памяти на GPU и 8,7% времени вывода по сравнению с Qwen2.5-VL 7B.

English

Multimodal Large Language Models (MLLMs) are undergoing rapid progress and represent the frontier of AI development. However, their training and inference efficiency have emerged as a core bottleneck in making MLLMs more accessible and scalable. To address the challenges, we present MiniCPM-V 4.5, an 8B parameter model designed for high efficiency and strong performance. We introduce three core improvements in model architecture, data strategy and training method: a unified 3D-Resampler model architecture for highly compact encoding over images and videos, a unified learning paradigm for document knowledge and text recognition without heavy data engineering, and a hybrid reinforcement learning strategy for proficiency in both short and long reasoning modes. Comprehensive experimental results in OpenCompass evaluation show that MiniCPM-V 4.5 surpasses widely used proprietary models such as GPT-4o-latest, and significantly larger open-source models such as Qwen2.5-VL 72B. Notably, the strong performance is achieved with remarkable efficiency. For example, on the widely adopted VideoMME benchmark, MiniCPM-V 4.5 achieves state-of-the-art performance among models under 30B size, using just 46.7\% GPU memory cost and 8.7\% inference time of Qwen2.5-VL 7B.

MiniCPM-V 4.5: Оптимизация многоязычных языковых моделей через архитектуру, данные и методику обучения

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

Аннотация

Support