MiniCPM-V 4.5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept optimieren

papers.abstract

Multimodale Large Language Models (MLLMs) machen rasante Fortschritte und repräsentieren die Spitze der KI-Entwicklung. Allerdings haben sich ihre Trainings- und Inferenzeffizienz als zentrale Engpässe erwiesen, die die Zugänglichkeit und Skalierbarkeit von MLLMs einschränken. Um diese Herausforderungen zu bewältigen, präsentieren wir MiniCPM-V 4.5, ein 8B-Parameter-Modell, das für hohe Effizienz und starke Leistung entwickelt wurde. Wir führen drei Kernverbesserungen in der Modellarchitektur, der Datenstrategie und der Trainingsmethode ein: eine einheitliche 3D-Resampler-Modellarchitektur für eine hochkompakte Kodierung von Bildern und Videos, ein einheitliches Lernparadigma für Dokumentenwissen und Texterkennung ohne aufwendige Datenaufbereitung sowie eine hybride Reinforcement-Learning-Strategie für Kompetenz in kurzen und langen Denkmodi. Umfassende experimentelle Ergebnisse in der OpenCompass-Evaluierung zeigen, dass MiniCPM-V 4.5 weit verbreitete proprietäre Modelle wie GPT-4o-latest und deutlich größere Open-Source-Modelle wie Qwen2.5-VL 72B übertrifft. Bemerkenswert ist, dass diese starke Leistung mit bemerkenswerter Effizienz erreicht wird. Beispielsweise erzielt MiniCPM-V 4.5 auf dem weit verbreiteten VideoMME-Benchmark die beste Leistung unter Modellen mit weniger als 30B Parametern, wobei nur 46,7 % des GPU-Speichers und 8,7 % der Inferenzzeit von Qwen2.5-VL 7B benötigt werden.

English

Multimodal Large Language Models (MLLMs) are undergoing rapid progress and represent the frontier of AI development. However, their training and inference efficiency have emerged as a core bottleneck in making MLLMs more accessible and scalable. To address the challenges, we present MiniCPM-V 4.5, an 8B parameter model designed for high efficiency and strong performance. We introduce three core improvements in model architecture, data strategy and training method: a unified 3D-Resampler model architecture for highly compact encoding over images and videos, a unified learning paradigm for document knowledge and text recognition without heavy data engineering, and a hybrid reinforcement learning strategy for proficiency in both short and long reasoning modes. Comprehensive experimental results in OpenCompass evaluation show that MiniCPM-V 4.5 surpasses widely used proprietary models such as GPT-4o-latest, and significantly larger open-source models such as Qwen2.5-VL 72B. Notably, the strong performance is achieved with remarkable efficiency. For example, on the widely adopted VideoMME benchmark, MiniCPM-V 4.5 achieves state-of-the-art performance among models under 30B size, using just 46.7\% GPU memory cost and 8.7\% inference time of Qwen2.5-VL 7B.

MiniCPM-V 4.5: Effiziente MLLMs durch Architektur, Daten und Trainingsrezept optimieren

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

papers.abstract

Support