Mono-InternVL-1.5: Rumo a Modelos de Linguagem Multimodais Monolíticos Mais Baratos e Rápidos
Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models
July 16, 2025
Autores: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI
Resumo
Este artigo foca em Modelos de Linguagem Multimodais Monolíticos (MLLMs), que integram codificação visual e decodificação de linguagem em um único modelo. As estruturas e estratégias de pré-treinamento existentes para MLLMs monolíticos frequentemente sofrem com otimização instável e esquecimento catastrófico. Para abordar esses desafios, nossa ideia principal é incorporar um novo espaço de parâmetros visuais em um LLM pré-treinado, permitindo o aprendizado estável de conhecimento visual a partir de dados ruidosos via ajuste delta. Com base nesse princípio, primeiro introduzimos o Mono-InternVL, um MLLM monolítico avançado que incorpora um conjunto de especialistas visuais por meio de uma arquitetura multimodal de mistura de especialistas. Além disso, projetamos um pré-treinamento visual endógeno inovador (EViP) para o Mono-InternVL, a fim de maximizar suas capacidades visuais por meio de aprendizado progressivo. O Mono-InternVL alcança desempenho competitivo em comparação com MLLMs existentes, mas também resulta em um custo de dados relativamente alto. Portanto, apresentamos ainda o Mono-InternVL-1.5, um MLLM monolítico mais barato e mais forte, equipado com um EViP aprimorado (EViP++). O EViP++ introduz especialistas adicionais de atenção visual ao Mono-InternVL-1.5 e reorganiza o processo de pré-treinamento de maneira eficiente. Durante a inferência, ele inclui um kernel CUDA fundido para acelerar suas operações de MoE. Com esses projetos, o Mono-InternVL-1.5 reduz significativamente os custos de treinamento e inferência, mantendo ainda um desempenho competitivo com o Mono-InternVL. Para avaliar nossa abordagem, realizamos extensos experimentos em 15 benchmarks. Os resultados demonstram que o Mono-InternVL supera os MLLMs monolíticos existentes em 12 dos 15 benchmarks, por exemplo, uma melhoria de +114 pontos sobre o Emu3 no OCRBench. Em comparação com sua contraparte modular, ou seja, o InternVL-1.5, o Mono-InternVL-1.5 alcança desempenho multimodal similar enquanto reduz a latência do primeiro token em até 69%. Códigos e modelos são disponibilizados em https://github.com/OpenGVLab/Mono-InternVL.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs),
which integrate visual encoding and language decoding into a single model.
Existing structures and pre-training strategies for monolithic MLLMs often
suffer from unstable optimization and catastrophic forgetting. To address these
challenges, our key idea is to embed a new visual parameter space into a
pre-trained LLM, enabling stable learning of visual knowledge from noisy data
via delta tuning. Based on this principle, we first introduce Mono-InternVL, an
advanced monolithic MLLM that incorporates a set of visual experts through a
multimodal mixture-of-experts architecture. In addition, we design an
innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize
its visual capabilities via progressive learning. Mono-InternVL achieves
competitive performance against existing MLLMs but also leads to relatively
expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper
and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++
introduces additional visual attention experts to Mono-InternVL-1.5 and
re-organizes the pre-training process in an efficient manner. During inference,
it includes a fused CUDA kernel to speed up its MoE operations. With these
designs, Mono-InternVL-1.5 significantly reduces training and inference costs,
while still maintaining competitive performance with Mono-InternVL. To evaluate
our approach, we conduct extensive experiments across 15 benchmarks. Results
demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out
of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared
to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves
similar multimodal performance while reducing first-token latency by up to 69%.
Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.