NaViL: Überdenken der Skalierungseigenschaften nativer multimodaler großer Sprachmodelle unter Datenbeschränkungen

papers.abstract

Die kompositionelle Ausbildung war das de-facto Paradigma in bestehenden Multimodalen Großen Sprachmodellen (MLLMs), bei denen vortrainierte Vision-Encoder mit vortrainierten LLMs durch kontinuierliches multimodales Vortraining verbunden werden. Die multimodale Skalierungseigenschaft dieses Paradigmas bleibt jedoch aufgrund der getrennten Ausbildung schwer zu erforschen. In diesem Artikel konzentrieren wir uns auf das native Training von MLLMs in einem End-to-End-Verfahren und untersuchen systematisch dessen Designraum und Skalierungseigenschaften unter einer praktischen Bedingung, nämlich der Datenbeschränkung. Durch eine sorgfältige Untersuchung verschiedener Optionen in MLLMs erhalten wir die optimale Meta-Architektur, die Leistung und Trainingskosten am besten ausbalanciert. Danach erforschen wir weiter die Skalierungseigenschaften des nativen MLLMs und zeigen die positiv korrelierte Skalierungsbeziehung zwischen visuellen Encodern und LLMs auf. Basierend auf diesen Erkenntnissen schlagen wir ein natives MLLM namens NaViL vor, kombiniert mit einem einfachen und kosteneffektiven Rezept. Experimentelle Ergebnisse auf 14 multimodalen Benchmarks bestätigen die wettbewerbsfähige Leistung von NaViL im Vergleich zu bestehenden MLLMs. Darüber hinaus bieten unsere Erkenntnisse und Ergebnisse tiefgehende Einblicke für die zukünftige Erforschung nativer MLLMs.

English

Compositional training has been the de-facto paradigm in existing Multimodal Large Language Models (MLLMs), where pre-trained vision encoders are connected with pre-trained LLMs through continuous multimodal pre-training. However, the multimodal scaling property of this paradigm remains difficult to explore due to the separated training. In this paper, we focus on the native training of MLLMs in an end-to-end manner and systematically study its design space and scaling property under a practical setting, i.e., data constraint. Through careful study of various choices in MLLM, we obtain the optimal meta-architecture that best balances performance and training cost. After that, we further explore the scaling properties of the native MLLM and indicate the positively correlated scaling relationship between visual encoders and LLMs. Based on these findings, we propose a native MLLM called NaViL, combined with a simple and cost-effective recipe. Experimental results on 14 multimodal benchmarks confirm the competitive performance of NaViL against existing MLLMs. Besides that, our findings and results provide in-depth insights for the future study of native MLLMs.

NaViL: Überdenken der Skalierungseigenschaften nativer multimodaler großer Sprachmodelle unter Datenbeschränkungen

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

papers.abstract

Support