Mono-InternVL-1.5: Hacia Modelos de Lenguaje Multimodales Monolíticos más Económicos y Rápidos
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
July 16, 2025
Autores: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI
Resumen
Este artículo se centra en los Modelos de Lenguaje Multimodales Monolíticos (MLLMs, por sus siglas en inglés), que integran la codificación visual y la decodificación del lenguaje en un solo modelo. Las estructuras y estrategias de preentrenamiento existentes para los MLLMs monolíticos a menudo presentan problemas de optimización inestable y olvido catastrófico. Para abordar estos desafíos, nuestra idea clave es incorporar un nuevo espacio de parámetros visuales en un LLM preentrenado, permitiendo un aprendizaje estable del conocimiento visual a partir de datos ruidosos mediante el ajuste delta. Basándonos en este principio, primero presentamos Mono-InternVL, un MLLM monolítico avanzado que incorpora un conjunto de expertos visuales a través de una arquitectura multimodal de mezcla de expertos. Además, diseñamos un preentrenamiento visual endógeno innovador (EViP) para Mono-InternVL con el fin de maximizar sus capacidades visuales mediante un aprendizaje progresivo. Mono-InternVL logra un rendimiento competitivo en comparación con los MLLMs existentes, pero también conlleva un costo de datos relativamente elevado. Por lo tanto, presentamos además Mono-InternVL-1.5, un MLLM monolítico más económico y potente equipado con un EViP mejorado (EViP++). EViP++ introduce expertos adicionales de atención visual en Mono-InternVL-1.5 y reorganiza el proceso de preentrenamiento de manera eficiente. Durante la inferencia, incluye un núcleo CUDA fusionado para acelerar sus operaciones de MoE. Con estos diseños, Mono-InternVL-1.5 reduce significativamente los costos de entrenamiento e inferencia, manteniendo al mismo tiempo un rendimiento competitivo con Mono-InternVL. Para evaluar nuestro enfoque, realizamos experimentos exhaustivos en 15 benchmarks. Los resultados demuestran que Mono-InternVL supera a los MLLMs monolíticos existentes en 12 de los 15 benchmarks, por ejemplo, una mejora de +114 puntos sobre Emu3 en OCRBench. En comparación con su contraparte modular, es decir, InternVL-1.5, Mono-InternVL-1.5 logra un rendimiento multimodal similar mientras reduce la latencia del primer token hasta en un 69%. El código y los modelos están disponibles en https://github.com/OpenGVLab/Mono-InternVL.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs),
which integrate visual encoding and language decoding into a single model.
Existing structures and pre-training strategies for monolithic MLLMs often
suffer from unstable optimization and catastrophic forgetting. To address these
challenges, our key idea is to embed a new visual parameter space into a
pre-trained LLM, enabling stable learning of visual knowledge from noisy data
via delta tuning. Based on this principle, we first introduce Mono-InternVL, an
advanced monolithic MLLM that incorporates a set of visual experts through a
multimodal mixture-of-experts architecture. In addition, we design an
innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize
its visual capabilities via progressive learning. Mono-InternVL achieves
competitive performance against existing MLLMs but also leads to relatively
expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper
and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++
introduces additional visual attention experts to Mono-InternVL-1.5 and
re-organizes the pre-training process in an efficient manner. During inference,
it includes a fused CUDA kernel to speed up its MoE operations. With these
designs, Mono-InternVL-1.5 significantly reduces training and inference costs,
while still maintaining competitive performance with Mono-InternVL. To evaluate
our approach, we conduct extensive experiments across 15 benchmarks. Results
demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out
of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared
to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves
similar multimodal performance while reducing first-token latency by up to 69%.
Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.