NaViL: Überdenken der Skalierungseigenschaften nativer multimodaler großer Sprachmodelle unter Datenbeschränkungen
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
October 9, 2025
papers.authors: Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai
cs.AI
papers.abstract
Die kompositionelle Ausbildung war das de-facto Paradigma in bestehenden Multimodalen Großen Sprachmodellen (MLLMs), bei denen vortrainierte Vision-Encoder mit vortrainierten LLMs durch kontinuierliches multimodales Vortraining verbunden werden. Die multimodale Skalierungseigenschaft dieses Paradigmas bleibt jedoch aufgrund der getrennten Ausbildung schwer zu erforschen. In diesem Artikel konzentrieren wir uns auf das native Training von MLLMs in einem End-to-End-Verfahren und untersuchen systematisch dessen Designraum und Skalierungseigenschaften unter einer praktischen Bedingung, nämlich der Datenbeschränkung. Durch eine sorgfältige Untersuchung verschiedener Optionen in MLLMs erhalten wir die optimale Meta-Architektur, die Leistung und Trainingskosten am besten ausbalanciert. Danach erforschen wir weiter die Skalierungseigenschaften des nativen MLLMs und zeigen die positiv korrelierte Skalierungsbeziehung zwischen visuellen Encodern und LLMs auf. Basierend auf diesen Erkenntnissen schlagen wir ein natives MLLM namens NaViL vor, kombiniert mit einem einfachen und kosteneffektiven Rezept. Experimentelle Ergebnisse auf 14 multimodalen Benchmarks bestätigen die wettbewerbsfähige Leistung von NaViL im Vergleich zu bestehenden MLLMs. Darüber hinaus bieten unsere Erkenntnisse und Ergebnisse tiefgehende Einblicke für die zukünftige Erforschung nativer MLLMs.
English
Compositional training has been the de-facto paradigm in existing Multimodal
Large Language Models (MLLMs), where pre-trained vision encoders are connected
with pre-trained LLMs through continuous multimodal pre-training. However, the
multimodal scaling property of this paradigm remains difficult to explore due
to the separated training. In this paper, we focus on the native training of
MLLMs in an end-to-end manner and systematically study its design space and
scaling property under a practical setting, i.e., data constraint. Through
careful study of various choices in MLLM, we obtain the optimal
meta-architecture that best balances performance and training cost. After that,
we further explore the scaling properties of the native MLLM and indicate the
positively correlated scaling relationship between visual encoders and LLMs.
Based on these findings, we propose a native MLLM called NaViL, combined with a
simple and cost-effective recipe. Experimental results on 14 multimodal
benchmarks confirm the competitive performance of NaViL against existing MLLMs.
Besides that, our findings and results provide in-depth insights for the future
study of native MLLMs.