Mono-InternVL-1.5: Op weg naar goedkopere en snellere monolithische multimodale grote taalmodellen
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
July 16, 2025
Auteurs: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI
Samenvatting
Dit artikel richt zich op monolithische Multimodale Grote Taalmodellen (MLLMs), die visuele codering en taaldecodering integreren in één model. Bestaande structuren en pre-trainingsstrategieën voor monolithische MLLMs kampen vaak met instabiele optimalisatie en catastrofaal vergeten. Om deze uitdagingen aan te pakken, is ons belangrijkste idee om een nieuwe visuele parameterruimte in een voorgetraind LLM in te bedden, waardoor stabiel leren van visuele kennis uit ruisige data mogelijk wordt via delta-tuning. Op basis van dit principe introduceren we eerst Mono-InternVL, een geavanceerd monolithisch MLLM dat een set visuele experts incorporeert via een multimodale mixture-of-experts-architectuur. Daarnaast ontwerpen we een innovatieve Endogene Visuele Pre-training (EViP) voor Mono-InternVL om de visuele capaciteiten te maximaliseren via progressief leren. Mono-InternVL behaalt competitieve prestaties ten opzichte van bestaande MLLMs, maar leidt ook tot relatief hoge datakosten. Daarom presenteren we verder Mono-InternVL-1.5, een goedkoper en sterker monolithisch MLLM uitgerust met een verbeterde EViP (EViP++). EViP++ introduceert aanvullende visuele aandachtsexperts in Mono-InternVL-1.5 en herstructureert het pre-trainingsproces op een efficiënte manier. Tijdens inferentie bevat het een gefuseerde CUDA-kernel om de MoE-operaties te versnellen. Met deze ontwerpen reduceert Mono-InternVL-1.5 de trainings- en inferentiekosten aanzienlijk, terwijl het nog steeds competitieve prestaties behoudt ten opzichte van Mono-InternVL. Om onze aanpak te evalueren, voeren we uitgebreide experimenten uit over 15 benchmarks. De resultaten tonen aan dat Mono-InternVL bestaande monolithische MLLMs overtreft op 12 van de 15 benchmarks, bijvoorbeeld een verbetering van +114 punten ten opzichte van Emu3 op OCRBench. Vergeleken met zijn modulaire tegenhanger, namelijk InternVL-1.5, behaalt Mono-InternVL-1.5 vergelijkbare multimodale prestaties terwijl de latentie van het eerste token met maximaal 69% wordt verminderd. Code en modellen zijn vrijgegeven op https://github.com/OpenGVLab/Mono-InternVL.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs),
which integrate visual encoding and language decoding into a single model.
Existing structures and pre-training strategies for monolithic MLLMs often
suffer from unstable optimization and catastrophic forgetting. To address these
challenges, our key idea is to embed a new visual parameter space into a
pre-trained LLM, enabling stable learning of visual knowledge from noisy data
via delta tuning. Based on this principle, we first introduce Mono-InternVL, an
advanced monolithic MLLM that incorporates a set of visual experts through a
multimodal mixture-of-experts architecture. In addition, we design an
innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize
its visual capabilities via progressive learning. Mono-InternVL achieves
competitive performance against existing MLLMs but also leads to relatively
expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper
and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++
introduces additional visual attention experts to Mono-InternVL-1.5 and
re-organizes the pre-training process in an efficient manner. During inference,
it includes a fused CUDA kernel to speed up its MoE operations. With these
designs, Mono-InternVL-1.5 significantly reduces training and inference costs,
while still maintaining competitive performance with Mono-InternVL. To evaluate
our approach, we conduct extensive experiments across 15 benchmarks. Results
demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out
of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared
to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves
similar multimodal performance while reducing first-token latency by up to 69%.
Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.