NaViL: Ripensare le proprietà di scalabilità dei modelli linguistici multimodali nativi in condizioni di vincoli sui dati
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
October 9, 2025
Autori: Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai
cs.AI
Abstract
L'addestramento composizionale è stato il paradigma di fatto nei modelli linguistici multimodali di grandi dimensioni (MLLM) esistenti, in cui gli encoder visivi pre-addestrati sono connessi con i modelli linguistici pre-addestrati attraverso un pre-addestramento multimodale continuo. Tuttavia, la proprietà di scalabilità multimodale di questo paradigma rimane difficile da esplorare a causa dell'addestramento separato. In questo articolo, ci concentriamo sull'addestramento nativo degli MLLM in modo end-to-end e studiamo sistematicamente il loro spazio di progettazione e la proprietà di scalabilità in un contesto pratico, ovvero con vincoli di dati. Attraverso un'attenta analisi di varie scelte negli MLLM, otteniamo la meta-architettura ottimale che bilancia al meglio le prestazioni e i costi di addestramento. Successivamente, esploriamo ulteriormente le proprietà di scalabilità dell'MLLM nativo e indichiamo la relazione di scalabilità positivamente correlata tra gli encoder visivi e i modelli linguistici. Sulla base di questi risultati, proponiamo un MLLM nativo chiamato NaViL, combinato con una ricetta semplice e conveniente. I risultati sperimentali su 14 benchmark multimodali confermano le prestazioni competitive di NaViL rispetto agli MLLM esistenti. Oltre a ciò, le nostre scoperte e risultati forniscono approfondimenti dettagliati per lo studio futuro degli MLLM nativi.
English
Compositional training has been the de-facto paradigm in existing Multimodal
Large Language Models (MLLMs), where pre-trained vision encoders are connected
with pre-trained LLMs through continuous multimodal pre-training. However, the
multimodal scaling property of this paradigm remains difficult to explore due
to the separated training. In this paper, we focus on the native training of
MLLMs in an end-to-end manner and systematically study its design space and
scaling property under a practical setting, i.e., data constraint. Through
careful study of various choices in MLLM, we obtain the optimal
meta-architecture that best balances performance and training cost. After that,
we further explore the scaling properties of the native MLLM and indicate the
positively correlated scaling relationship between visual encoders and LLMs.
Based on these findings, we propose a native MLLM called NaViL, combined with a
simple and cost-effective recipe. Experimental results on 14 multimodal
benchmarks confirm the competitive performance of NaViL against existing MLLMs.
Besides that, our findings and results provide in-depth insights for the future
study of native MLLMs.