ChatPaper.aiChatPaper

NaViL : Repenser les propriétés de mise à l'échelle des modèles de langage multimodaux natifs sous contraintes de données

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

October 9, 2025
papers.authors: Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai
cs.AI

papers.abstract

L'entraînement compositionnel a été le paradigme de facto dans les modèles de langage multimodaux de grande taille (MLLMs) existants, où des encodeurs visuels pré-entraînés sont connectés à des modèles de langage pré-entraînés via un pré-entraînement multimodal continu. Cependant, les propriétés de mise à l'échelle multimodale de ce paradigme restent difficiles à explorer en raison de l'entraînement séparé. Dans cet article, nous nous concentrons sur l'entraînement natif des MLLMs de manière end-to-end et étudions systématiquement leur espace de conception et leurs propriétés de mise à l'échelle dans un cadre pratique, c'est-à-dire sous contrainte de données. À travers une étude minutieuse de divers choix dans les MLLMs, nous obtenons la méta-architecture optimale qui équilibre le mieux les performances et le coût d'entraînement. Par la suite, nous explorons davantage les propriétés de mise à l'échelle des MLLMs natifs et mettons en évidence la relation de mise à l'échelle positivement corrélée entre les encodeurs visuels et les modèles de langage. Sur la base de ces découvertes, nous proposons un MLLM natif appelé NaViL, combiné à une recette simple et rentable. Les résultats expérimentaux sur 14 benchmarks multimodaux confirment la performance compétitive de NaViL par rapport aux MLLMs existants. En outre, nos découvertes et résultats fournissent des insights approfondis pour l'étude future des MLLMs natifs.
English
Compositional training has been the de-facto paradigm in existing Multimodal Large Language Models (MLLMs), where pre-trained vision encoders are connected with pre-trained LLMs through continuous multimodal pre-training. However, the multimodal scaling property of this paradigm remains difficult to explore due to the separated training. In this paper, we focus on the native training of MLLMs in an end-to-end manner and systematically study its design space and scaling property under a practical setting, i.e., data constraint. Through careful study of various choices in MLLM, we obtain the optimal meta-architecture that best balances performance and training cost. After that, we further explore the scaling properties of the native MLLM and indicate the positively correlated scaling relationship between visual encoders and LLMs. Based on these findings, we propose a native MLLM called NaViL, combined with a simple and cost-effective recipe. Experimental results on 14 multimodal benchmarks confirm the competitive performance of NaViL against existing MLLMs. Besides that, our findings and results provide in-depth insights for the future study of native MLLMs.
PDF172October 10, 2025