NVLM : Modèles de Langage Multimodaux de Classe Frontière Ouverte
NVLM: Open Frontier-Class Multimodal LLMs
September 17, 2024
Auteurs: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Résumé
Nous présentons NVLM 1.0, une famille de modèles de langage large multimodal de classe frontière qui atteignent des résultats de pointe sur les tâches vision-langage, rivalisant avec les modèles propriétaires de premier plan (par exemple, GPT-4o) et les modèles en accès libre (par exemple, Llama 3-V 405B et InternVL 2). Remarquablement, NVLM 1.0 montre des performances améliorées en texte seul par rapport à son socle de modèle de langage large après un entraînement multimodal. En termes de conception de modèle, nous effectuons une comparaison approfondie entre les LLM multimodaux à décodeur unique (par exemple, LLaVA) et les modèles basés sur l'attention croisée (par exemple, Flamingo). En nous basant sur les forces et les faiblesses des deux approches, nous proposons une architecture novatrice qui améliore à la fois l'efficacité de l'entraînement et les capacités de raisonnement multimodal. De plus, nous introduisons une conception d'étiquetage de tuiles 1-D pour les images dynamiques haute résolution basées sur des tuiles, ce qui améliore significativement les performances sur les tâches de raisonnement multimodal et de reconnaissance optique de caractères (OCR). En ce qui concerne les données d'entraînement, nous sélectionnons méticuleusement et fournissons des informations détaillées sur nos ensembles de données de pré-entraînement multimodal et de fine-tuning supervisé. Nos résultats indiquent que la qualité des ensembles de données et la diversité des tâches sont plus importantes que l'échelle, même pendant la phase de pré-entraînement, pour toutes les architectures. Notamment, nous développons une multimodalité de qualité professionnelle pour les modèles NVLM-1.0, leur permettant d'exceller dans les tâches vision-langage tout en maintenant voire en améliorant les performances en texte seul par rapport à leurs socles de LLM. Pour y parvenir, nous élaborons et intégrons un ensemble de données en texte seul de haute qualité dans l'entraînement multimodal, aux côtés d'une quantité substantielle de données multimodales en mathématiques et en raisonnement, ce qui conduit à des capacités améliorées en mathématiques et en codage à travers les modalités. Pour faire progresser la recherche dans le domaine, nous publions les poids du modèle et allons rendre le code open-source pour la communauté : https://nvlm-project.github.io/.
English
We introduce NVLM 1.0, a family of frontier-class multimodal large language
models (LLMs) that achieve state-of-the-art results on vision-language tasks,
rivaling the leading proprietary models (e.g., GPT-4o) and open-access models
(e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved
text-only performance over its LLM backbone after multimodal training. In terms
of model design, we perform a comprehensive comparison between decoder-only
multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g.,
Flamingo). Based on the strengths and weaknesses of both approaches, we propose
a novel architecture that enhances both training efficiency and multimodal
reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for
tile-based dynamic high-resolution images, which significantly boosts
performance on multimodal reasoning and OCR-related tasks. Regarding training
data, we meticulously curate and provide detailed information on our multimodal
pretraining and supervised fine-tuning datasets. Our findings indicate that
dataset quality and task diversity are more important than scale, even during
the pretraining phase, across all architectures. Notably, we develop
production-grade multimodality for the NVLM-1.0 models, enabling them to excel
in vision-language tasks while maintaining and even improving text-only
performance compared to their LLM backbones. To achieve this, we craft and
integrate a high-quality text-only dataset into multimodal training, alongside
a substantial amount of multimodal math and reasoning data, leading to enhanced
math and coding capabilities across modalities. To advance research in the
field, we are releasing the model weights and will open-source the code for the
community: https://nvlm-project.github.io/.Summary
AI-Generated Summary