Mono-InternVL-1.5 : Vers des modèles de langage multimodaux monolithiques plus économiques et plus rapides
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
July 16, 2025
papers.authors: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI
papers.abstract
Cet article se concentre sur les modèles de langage multimodaux monolithiques (MLLMs), qui intègrent l'encodage visuel et le décodage linguistique dans un seul modèle. Les structures et stratégies de pré-entraînement existantes pour les MLLMs monolithiques souffrent souvent d'une optimisation instable et d'un oubli catastrophique. Pour relever ces défis, notre idée clé est d'intégrer un nouvel espace de paramètres visuels dans un modèle de langage pré-entraîné (LLM), permettant un apprentissage stable des connaissances visuelles à partir de données bruitées via un réglage delta. Sur la base de ce principe, nous introduisons d'abord Mono-InternVL, un MLLM monolithique avancé qui intègre un ensemble d'experts visuels grâce à une architecture multimodale de mélange d'experts. En outre, nous concevons un pré-entraînement visuel endogène innovant (EViP) pour Mono-InternVL afin de maximiser ses capacités visuelles via un apprentissage progressif. Mono-InternVL atteint des performances compétitives par rapport aux MLLMs existants, mais entraîne également un coût de données relativement élevé. Par conséquent, nous présentons également Mono-InternVL-1.5, un MLLM monolithique plus économique et plus puissant, équipé d'un EViP amélioré (EViP++). EViP++ introduit des experts d'attention visuelle supplémentaires dans Mono-InternVL-1.5 et réorganise le processus de pré-entraînement de manière efficace. Pendant l'inférence, il inclut un noyau CUDA fusionné pour accélérer ses opérations MoE. Grâce à ces conceptions, Mono-InternVL-1.5 réduit considérablement les coûts d'entraînement et d'inférence, tout en maintenant des performances compétitives par rapport à Mono-InternVL. Pour évaluer notre approche, nous menons des expériences approfondies sur 15 benchmarks. Les résultats démontrent que Mono-InternVL surpasse les MLLMs monolithiques existants sur 12 des 15 benchmarks, par exemple, une amélioration de 114 points par rapport à Emu3 sur OCRBench. Par rapport à sa contrepartie modulaire, c'est-à-dire InternVL-1.5, Mono-InternVL-1.5 atteint des performances multimodales similaires tout en réduisant la latence du premier jeton jusqu'à 69 %. Le code et les modèles sont disponibles à l'adresse https://github.com/OpenGVLab/Mono-InternVL.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs),
which integrate visual encoding and language decoding into a single model.
Existing structures and pre-training strategies for monolithic MLLMs often
suffer from unstable optimization and catastrophic forgetting. To address these
challenges, our key idea is to embed a new visual parameter space into a
pre-trained LLM, enabling stable learning of visual knowledge from noisy data
via delta tuning. Based on this principle, we first introduce Mono-InternVL, an
advanced monolithic MLLM that incorporates a set of visual experts through a
multimodal mixture-of-experts architecture. In addition, we design an
innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize
its visual capabilities via progressive learning. Mono-InternVL achieves
competitive performance against existing MLLMs but also leads to relatively
expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper
and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++
introduces additional visual attention experts to Mono-InternVL-1.5 and
re-organizes the pre-training process in an efficient manner. During inference,
it includes a fused CUDA kernel to speed up its MoE operations. With these
designs, Mono-InternVL-1.5 significantly reduces training and inference costs,
while still maintaining competitive performance with Mono-InternVL. To evaluate
our approach, we conduct extensive experiments across 15 benchmarks. Results
demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out
of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared
to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves
similar multimodal performance while reducing first-token latency by up to 69%.
Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.