NaViL: Переосмысление масштабируемости нативных мультимодальных больших языковых моделей в условиях ограниченности данных
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
October 9, 2025
Авторы: Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai
cs.AI
Аннотация
Композиционное обучение стало де-факто парадигмой в существующих мультимодальных больших языковых моделях (MLLM), где предварительно обученные визуальные кодировщики соединяются с предварительно обученными языковыми моделями через непрерывное мультимодальное предобучение. Однако мультимодальные свойства масштабирования этой парадигмы остаются сложными для изучения из-за раздельного обучения. В данной работе мы сосредотачиваемся на нативном обучении MLLM в сквозном режиме и систематически изучаем пространство проектирования и свойства масштабирования в практических условиях, таких как ограничения данных. В результате тщательного изучения различных вариантов в MLLM мы получаем оптимальную метаархитектуру, которая наилучшим образом балансирует производительность и стоимость обучения. После этого мы дополнительно исследуем свойства масштабирования нативной MLLM и указываем на положительно коррелирующую зависимость масштабирования между визуальными кодировщиками и языковыми моделями. На основе этих выводов мы предлагаем нативную MLLM под названием NaViL, сочетая её с простым и экономически эффективным подходом. Экспериментальные результаты на 14 мультимодальных бенчмарках подтверждают конкурентоспособную производительность NaViL по сравнению с существующими MLLM. Кроме того, наши выводы и результаты предоставляют глубокие инсайты для будущих исследований нативных MLLM.
English
Compositional training has been the de-facto paradigm in existing Multimodal
Large Language Models (MLLMs), where pre-trained vision encoders are connected
with pre-trained LLMs through continuous multimodal pre-training. However, the
multimodal scaling property of this paradigm remains difficult to explore due
to the separated training. In this paper, we focus on the native training of
MLLMs in an end-to-end manner and systematically study its design space and
scaling property under a practical setting, i.e., data constraint. Through
careful study of various choices in MLLM, we obtain the optimal
meta-architecture that best balances performance and training cost. After that,
we further explore the scaling properties of the native MLLM and indicate the
positively correlated scaling relationship between visual encoders and LLMs.
Based on these findings, we propose a native MLLM called NaViL, combined with a
simple and cost-effective recipe. Experimental results on 14 multimodal
benchmarks confirm the competitive performance of NaViL against existing MLLMs.
Besides that, our findings and results provide in-depth insights for the future
study of native MLLMs.