Mono-InternVL-1.5: Auf dem Weg zu kostengünstigeren und schnelleren monolithischen multimodalen Large Language Models
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
July 16, 2025
papers.authors: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI
papers.abstract
Dieses Papier konzentriert sich auf monolithische Multimodale Large Language Models (MLLMs), die visuelle Kodierung und Sprachdekodierung in einem einzigen Modell integrieren. Bestehende Strukturen und Vorab-Trainingsstrategien für monolithische MLLMs leiden oft unter instabiler Optimierung und katastrophalem Vergessen. Um diese Herausforderungen zu bewältigen, besteht unser zentraler Ansatz darin, einen neuen visuellen Parameterraum in ein vortrainiertes LLM einzubetten, wodurch ein stabiles Lernen visuellen Wissens aus verrauschten Daten durch Delta-Tuning ermöglicht wird. Basierend auf diesem Prinzip führen wir zunächst Mono-InternVL ein, ein fortschrittliches monolithisches MLLM, das eine Reihe von visuellen Experten durch eine multimodale Mixture-of-Experts-Architektur integriert. Zusätzlich entwerfen wir ein innovatives Endogenes Visuelles Vorab-Training (EViP) für Mono-InternVL, um dessen visuelle Fähigkeiten durch progressives Lernen zu maximieren. Mono-InternVL erzielt wettbewerbsfähige Leistungen im Vergleich zu bestehenden MLLMs, führt jedoch auch zu relativ hohen Datenkosten. Daher präsentieren wir weiterhin Mono-InternVL-1.5, ein kostengünstigeres und leistungsstärkeres monolithisches MLLM, das mit einem verbesserten EViP (EViP++) ausgestattet ist. EViP++ führt zusätzliche visuelle Aufmerksamkeitsexperten in Mono-InternVL-1.5 ein und organisiert den Vorab-Trainingsprozess auf effiziente Weise neu. Während der Inferenz beinhaltet es einen fusionierten CUDA-Kernel, um die MoE-Operationen zu beschleunigen. Mit diesen Designs reduziert Mono-InternVL-1.5 die Trainings- und Inferenzkosten erheblich, während es dennoch wettbewerbsfähige Leistungen im Vergleich zu Mono-InternVL beibehält. Um unseren Ansatz zu bewerten, führen wir umfangreiche Experimente über 15 Benchmarks durch. Die Ergebnisse zeigen, dass Mono-InternVL bestehende monolithische MLLMs auf 12 von 15 Benchmarks übertrifft, z.B. eine Verbesserung von +114 Punkten gegenüber Emu3 auf OCRBench. Im Vergleich zu seinem modularen Gegenstück, d.h. InternVL-1.5, erreicht Mono-InternVL-1.5 eine ähnliche multimodale Leistung, während die Latenz des ersten Tokens um bis zu 69% reduziert wird. Code und Modelle sind unter https://github.com/OpenGVLab/Mono-InternVL veröffentlicht.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs),
which integrate visual encoding and language decoding into a single model.
Existing structures and pre-training strategies for monolithic MLLMs often
suffer from unstable optimization and catastrophic forgetting. To address these
challenges, our key idea is to embed a new visual parameter space into a
pre-trained LLM, enabling stable learning of visual knowledge from noisy data
via delta tuning. Based on this principle, we first introduce Mono-InternVL, an
advanced monolithic MLLM that incorporates a set of visual experts through a
multimodal mixture-of-experts architecture. In addition, we design an
innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize
its visual capabilities via progressive learning. Mono-InternVL achieves
competitive performance against existing MLLMs but also leads to relatively
expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper
and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++
introduces additional visual attention experts to Mono-InternVL-1.5 and
re-organizes the pre-training process in an efficient manner. During inference,
it includes a fused CUDA kernel to speed up its MoE operations. With these
designs, Mono-InternVL-1.5 significantly reduces training and inference costs,
while still maintaining competitive performance with Mono-InternVL. To evaluate
our approach, we conduct extensive experiments across 15 benchmarks. Results
demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out
of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared
to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves
similar multimodal performance while reducing first-token latency by up to 69%.
Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.