Mono-InternVL-1.5: Verso Modelli Linguistici Multimodali Monolitici più Economici e Veloci

Abstract

Questo articolo si concentra sui Modelli Linguistici Multimodali Monolitici (MLLM), che integrano la codifica visiva e la decodifica linguistica in un unico modello. Le strutture e le strategie di pre-addestramento esistenti per gli MLLM monolitici spesso soffrono di ottimizzazione instabile e di oblio catastrofico. Per affrontare queste sfide, la nostra idea chiave è incorporare un nuovo spazio di parametri visivi in un LLM pre-addestrato, consentendo un apprendimento stabile della conoscenza visiva da dati rumorosi tramite il delta tuning. Basandoci su questo principio, introduciamo prima Mono-InternVL, un MLLM monolitico avanzato che incorpora un insieme di esperti visivi attraverso un'architettura multimodale mixture-of-experts. Inoltre, progettiamo un innovativo Pre-addestramento Visivo Endogeno (EViP) per Mono-InternVL per massimizzare le sue capacità visive tramite l'apprendimento progressivo. Mono-InternVL raggiunge prestazioni competitive rispetto agli MLLM esistenti, ma comporta anche un costo dei dati relativamente elevato. Pertanto, presentiamo ulteriormente Mono-InternVL-1.5, un MLLM monolitico più economico e potente, dotato di un EViP migliorato (EViP++). EViP++ introduce ulteriori esperti di attenzione visiva in Mono-InternVL-1.5 e riorganizza il processo di pre-addestramento in modo efficiente. Durante l'inferenza, include un kernel CUDA fuso per accelerare le sue operazioni MoE. Con questi progetti, Mono-InternVL-1.5 riduce significativamente i costi di addestramento e inferenza, mantenendo comunque prestazioni competitive con Mono-InternVL. Per valutare il nostro approccio, conduciamo esperimenti estesi su 15 benchmark. I risultati dimostrano che Mono-InternVL supera gli MLLM monolitici esistenti su 12 dei 15 benchmark, ad esempio, un miglioramento di +114 punti rispetto a Emu3 su OCRBench. Rispetto alla sua controparte modulare, ovvero InternVL-1.5, Mono-InternVL-1.5 raggiunge prestazioni multimodali simili riducendo la latenza del primo token fino al 69%. Codice e modelli sono rilasciati su https://github.com/OpenGVLab/Mono-InternVL.

English

This paper focuses on monolithic Multimodal Large Language Models (MLLMs), which integrate visual encoding and language decoding into a single model. Existing structures and pre-training strategies for monolithic MLLMs often suffer from unstable optimization and catastrophic forgetting. To address these challenges, our key idea is to embed a new visual parameter space into a pre-trained LLM, enabling stable learning of visual knowledge from noisy data via delta tuning. Based on this principle, we first introduce Mono-InternVL, an advanced monolithic MLLM that incorporates a set of visual experts through a multimodal mixture-of-experts architecture. In addition, we design an innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize its visual capabilities via progressive learning. Mono-InternVL achieves competitive performance against existing MLLMs but also leads to relatively expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++ introduces additional visual attention experts to Mono-InternVL-1.5 and re-organizes the pre-training process in an efficient manner. During inference, it includes a fused CUDA kernel to speed up its MoE operations. With these designs, Mono-InternVL-1.5 significantly reduces training and inference costs, while still maintaining competitive performance with Mono-InternVL. To evaluate our approach, we conduct extensive experiments across 15 benchmarks. Results demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves similar multimodal performance while reducing first-token latency by up to 69%. Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.

Mono-InternVL-1.5: Verso Modelli Linguistici Multimodali Monolitici più Economici e Veloci

Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models

Abstract

Support