Mono-InternVL-1.5: Verso Modelli Linguistici Multimodali Monolitici più Economici e Veloci
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
July 16, 2025
Autori: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI
Abstract
Questo articolo si concentra sui Modelli Linguistici Multimodali Monolitici (MLLM), che integrano la codifica visiva e la decodifica linguistica in un unico modello. Le strutture e le strategie di pre-addestramento esistenti per gli MLLM monolitici spesso soffrono di ottimizzazione instabile e di oblio catastrofico. Per affrontare queste sfide, la nostra idea chiave è incorporare un nuovo spazio di parametri visivi in un LLM pre-addestrato, consentendo un apprendimento stabile della conoscenza visiva da dati rumorosi tramite il delta tuning. Basandoci su questo principio, introduciamo prima Mono-InternVL, un MLLM monolitico avanzato che incorpora un insieme di esperti visivi attraverso un'architettura multimodale mixture-of-experts. Inoltre, progettiamo un innovativo Pre-addestramento Visivo Endogeno (EViP) per Mono-InternVL per massimizzare le sue capacità visive tramite l'apprendimento progressivo. Mono-InternVL raggiunge prestazioni competitive rispetto agli MLLM esistenti, ma comporta anche un costo dei dati relativamente elevato. Pertanto, presentiamo ulteriormente Mono-InternVL-1.5, un MLLM monolitico più economico e potente, dotato di un EViP migliorato (EViP++). EViP++ introduce ulteriori esperti di attenzione visiva in Mono-InternVL-1.5 e riorganizza il processo di pre-addestramento in modo efficiente. Durante l'inferenza, include un kernel CUDA fuso per accelerare le sue operazioni MoE. Con questi progetti, Mono-InternVL-1.5 riduce significativamente i costi di addestramento e inferenza, mantenendo comunque prestazioni competitive con Mono-InternVL. Per valutare il nostro approccio, conduciamo esperimenti estesi su 15 benchmark. I risultati dimostrano che Mono-InternVL supera gli MLLM monolitici esistenti su 12 dei 15 benchmark, ad esempio, un miglioramento di +114 punti rispetto a Emu3 su OCRBench. Rispetto alla sua controparte modulare, ovvero InternVL-1.5, Mono-InternVL-1.5 raggiunge prestazioni multimodali simili riducendo la latenza del primo token fino al 69%. Codice e modelli sono rilasciati su https://github.com/OpenGVLab/Mono-InternVL.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs),
which integrate visual encoding and language decoding into a single model.
Existing structures and pre-training strategies for monolithic MLLMs often
suffer from unstable optimization and catastrophic forgetting. To address these
challenges, our key idea is to embed a new visual parameter space into a
pre-trained LLM, enabling stable learning of visual knowledge from noisy data
via delta tuning. Based on this principle, we first introduce Mono-InternVL, an
advanced monolithic MLLM that incorporates a set of visual experts through a
multimodal mixture-of-experts architecture. In addition, we design an
innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize
its visual capabilities via progressive learning. Mono-InternVL achieves
competitive performance against existing MLLMs but also leads to relatively
expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper
and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++
introduces additional visual attention experts to Mono-InternVL-1.5 and
re-organizes the pre-training process in an efficient manner. During inference,
it includes a fused CUDA kernel to speed up its MoE operations. With these
designs, Mono-InternVL-1.5 significantly reduces training and inference costs,
while still maintaining competitive performance with Mono-InternVL. To evaluate
our approach, we conduct extensive experiments across 15 benchmarks. Results
demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out
of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared
to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves
similar multimodal performance while reducing first-token latency by up to 69%.
Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.