ChatPaper.aiChatPaper

MiniCPM-V 4.5: Het efficiënt ontwikkelen van MLLM's via architectuur, data en trainingsrecept

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

September 16, 2025
Auteurs: Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) maken een snelle ontwikkeling door en vertegenwoordigen de voorhoede van AI-ontwikkeling. Echter, hun trainings- en inferentie-efficiëntie zijn naar voren gekomen als een kernbelemmering om MLLMs toegankelijker en schaalbaarder te maken. Om deze uitdagingen aan te pakken, presenteren we MiniCPM-V 4.5, een model met 8B parameters dat is ontworpen voor hoge efficiëntie en sterke prestaties. We introduceren drie kernverbeteringen in modelarchitectuur, datastrategie en trainingsmethode: een geünificeerde 3D-Resampler-modelarchitectuur voor zeer compacte codering van afbeeldingen en video's, een geünificeerd leerparadigma voor documentkennis en tekstherkenning zonder zware data-engineering, en een hybride reinforcement learning-strategie voor vaardigheid in zowel korte als lange redeneermodi. Uitgebreide experimentele resultaten in de OpenCompass-evaluatie laten zien dat MiniCPM-V 4.5 veelgebruikte propriëtaire modellen zoals GPT-4o-latest overtreft, en aanzienlijk grotere open-source modellen zoals Qwen2.5-VL 72B. Opmerkelijk is dat de sterke prestaties worden bereikt met opmerkelijke efficiëntie. Zo behaalt MiniCPM-V 4.5 op het veelgebruikte VideoMME-benchmark state-of-the-art prestaties onder modellen kleiner dan 30B, met slechts 46,7\% GPU-geheugenkosten en 8,7\% inferentietijd van Qwen2.5-VL 7B.
English
Multimodal Large Language Models (MLLMs) are undergoing rapid progress and represent the frontier of AI development. However, their training and inference efficiency have emerged as a core bottleneck in making MLLMs more accessible and scalable. To address the challenges, we present MiniCPM-V 4.5, an 8B parameter model designed for high efficiency and strong performance. We introduce three core improvements in model architecture, data strategy and training method: a unified 3D-Resampler model architecture for highly compact encoding over images and videos, a unified learning paradigm for document knowledge and text recognition without heavy data engineering, and a hybrid reinforcement learning strategy for proficiency in both short and long reasoning modes. Comprehensive experimental results in OpenCompass evaluation show that MiniCPM-V 4.5 surpasses widely used proprietary models such as GPT-4o-latest, and significantly larger open-source models such as Qwen2.5-VL 72B. Notably, the strong performance is achieved with remarkable efficiency. For example, on the widely adopted VideoMME benchmark, MiniCPM-V 4.5 achieves state-of-the-art performance among models under 30B size, using just 46.7\% GPU memory cost and 8.7\% inference time of Qwen2.5-VL 7B.
PDF484September 24, 2025