ChatPaper.aiChatPaper

Mono-InternVL-1.5: В направлении более доступных и быстрых монолитных мультимодальных крупных языковых моделей

Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models

July 16, 2025
Авторы: Gen Luo, Wenhan Dou, Wenhao Li, Zhaokai Wang, Xue Yang, Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang, Xizhou Zhu, Yu Qiao, Jifeng Dai
cs.AI

Аннотация

В данной статье рассматриваются монолитные многомодальные большие языковые модели (MLLMs), которые объединяют визуальное кодирование и языковое декодирование в единую модель. Существующие структуры и стратегии предварительного обучения для монолитных MLLMs часто сталкиваются с нестабильной оптимизацией и катастрофическим забыванием. Для решения этих проблем наша ключевая идея заключается во внедрении нового визуального параметрического пространства в предварительно обученную языковую модель, что позволяет стабильно обучать визуальные знания на зашумленных данных с помощью дельта-тюнинга. На основе этого принципа мы сначала представляем Mono-InternVL, продвинутую монолитную MLLM, которая включает набор визуальных экспертов через многомодальную архитектуру смеси экспертов. Кроме того, мы разрабатываем инновационное эндогенное визуальное предварительное обучение (EViP) для Mono-InternVL, чтобы максимизировать её визуальные возможности с помощью прогрессивного обучения. Mono-InternVL демонстрирует конкурентоспособные результаты по сравнению с существующими MLLMs, но также приводит к относительно высоким затратам на данные. Поэтому мы представляем Mono-InternVL-1.5, более дешёвую и мощную монолитную MLLM, оснащённую улучшенным EViP (EViP++). EViP++ добавляет дополнительные визуальные эксперты внимания в Mono-InternVL-1.5 и реорганизует процесс предварительного обучения более эффективным образом. Во время вывода она включает объединённое CUDA-ядро для ускорения операций смеси экспертов. Благодаря этим решениям, Mono-InternVL-1.5 значительно снижает затраты на обучение и вывод, сохраняя при этом конкурентоспособные результаты по сравнению с Mono-InternVL. Для оценки нашего подхода мы проводим обширные эксперименты на 15 бенчмарках. Результаты показывают, что Mono-InternVL превосходит существующие монолитные MLLMs на 12 из 15 бенчмарков, например, улучшение на 114 баллов по сравнению с Emu3 на OCRBench. По сравнению с её модульным аналогом, т.е. InternVL-1.5, Mono-InternVL-1.5 демонстрирует схожую многомодальную производительность, сокращая задержку первого токена до 69%. Код и модели доступны по адресу https://github.com/OpenGVLab/Mono-InternVL.
English
This paper focuses on monolithic Multimodal Large Language Models (MLLMs), which integrate visual encoding and language decoding into a single model. Existing structures and pre-training strategies for monolithic MLLMs often suffer from unstable optimization and catastrophic forgetting. To address these challenges, our key idea is to embed a new visual parameter space into a pre-trained LLM, enabling stable learning of visual knowledge from noisy data via delta tuning. Based on this principle, we first introduce Mono-InternVL, an advanced monolithic MLLM that incorporates a set of visual experts through a multimodal mixture-of-experts architecture. In addition, we design an innovative Endogenous Visual Pre-training (EViP) for Mono-InternVL to maximize its visual capabilities via progressive learning. Mono-InternVL achieves competitive performance against existing MLLMs but also leads to relatively expensive data cost. Therefore, we further present Mono-InternVL-1.5, a cheaper and stronger monolithic MLLM equipped with an improved EViP (EViP++). EViP++ introduces additional visual attention experts to Mono-InternVL-1.5 and re-organizes the pre-training process in an efficient manner. During inference, it includes a fused CUDA kernel to speed up its MoE operations. With these designs, Mono-InternVL-1.5 significantly reduces training and inference costs, while still maintaining competitive performance with Mono-InternVL. To evaluate our approach, we conduct extensive experiments across 15 benchmarks. Results demonstrate that Mono-InternVL outperforms existing monolithic MLLMs on 12 out of 15 benchmarks, e.g., +114-point improvement over Emu3 on OCRBench. Compared to its modular counterpart, i.e., InternVL-1.5, Mono-InternVL-1.5 achieves similar multimodal performance while reducing first-token latency by up to 69%. Code and models are released at https://github.com/OpenGVLab/Mono-InternVL.
PDF141July 21, 2025