NVLM: Offene Frontier-Class Multimodal LLMs
NVLM: Open Frontier-Class Multimodal LLMs
September 17, 2024
Autoren: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Zusammenfassung
Wir stellen NVLM 1.0 vor, eine Familie von Frontier-Class Multimodal Large Language Models (LLMs), die Spitzenleistungen bei Vision-Language-Aufgaben erzielen und führende proprietäre Modelle (z. B. GPT-4o) sowie Open-Access-Modelle (z. B. Llama 3-V 405B und InternVL 2) herausfordern. Bemerkenswerterweise zeigt NVLM 1.0 nach dem multimodalen Training eine verbesserte Leistung bei reinem Text im Vergleich zu seinem LLM-Grundgerüst. In Bezug auf das Modell-Design führen wir einen umfassenden Vergleich zwischen Decoder-Only Multimodal LLMs (z. B. LLaVA) und kreuz-aufmerksamkeitsbasierten Modellen (z. B. Flamingo) durch. Basierend auf den Stärken und Schwächen beider Ansätze schlagen wir eine neuartige Architektur vor, die sowohl die Trainingseffizienz als auch die multimodalen Schlussfolgerungsfähigkeiten verbessert. Darüber hinaus führen wir ein 1-D Tile-Tagging-Design für kachelbasierte dynamische hochauflösende Bilder ein, das die Leistung bei multimodalen Schlussfolgerungen und OCR-bezogenen Aufgaben signifikant steigert. In Bezug auf Trainingsdaten kuratieren wir sorgfältig und stellen detaillierte Informationen zu unseren multimodalen Vortrainings- und überwachten Feinabstimmungsdatensätzen bereit. Unsere Ergebnisse deuten darauf hin, dass die Qualität der Datensätze und die Vielfalt der Aufgaben wichtiger sind als der Umfang, selbst während der Vortrainingsphase, über alle Architekturen hinweg. Bemerkenswert entwickeln wir produktionsreife Multimodalität für die NVLM-1.0-Modelle, die es ihnen ermöglicht, bei Vision-Language-Aufgaben herausragende Leistungen zu erbringen, während sie die Leistung bei reinem Text im Vergleich zu ihren LLM-Grundgerüsten beibehalten oder sogar verbessern. Um dies zu erreichen, erstellen und integrieren wir einen hochwertigen reinen Textdatensatz in das multimodale Training, zusammen mit einer beträchtlichen Menge an multimodalen Mathematik- und Schlussfolgerungsdaten, was zu verbesserten mathematischen und Kodierungsfähigkeiten über die Modalitäten hinweg führt. Um die Forschung auf diesem Gebiet voranzutreiben, veröffentlichen wir die Modellgewichte und werden den Code für die Community Open-Source zur Verfügung stellen: https://nvlm-project.github.io/.
English
We introduce NVLM 1.0, a family of frontier-class multimodal large language
models (LLMs) that achieve state-of-the-art results on vision-language tasks,
rivaling the leading proprietary models (e.g., GPT-4o) and open-access models
(e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved
text-only performance over its LLM backbone after multimodal training. In terms
of model design, we perform a comprehensive comparison between decoder-only
multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g.,
Flamingo). Based on the strengths and weaknesses of both approaches, we propose
a novel architecture that enhances both training efficiency and multimodal
reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for
tile-based dynamic high-resolution images, which significantly boosts
performance on multimodal reasoning and OCR-related tasks. Regarding training
data, we meticulously curate and provide detailed information on our multimodal
pretraining and supervised fine-tuning datasets. Our findings indicate that
dataset quality and task diversity are more important than scale, even during
the pretraining phase, across all architectures. Notably, we develop
production-grade multimodality for the NVLM-1.0 models, enabling them to excel
in vision-language tasks while maintaining and even improving text-only
performance compared to their LLM backbones. To achieve this, we craft and
integrate a high-quality text-only dataset into multimodal training, alongside
a substantial amount of multimodal math and reasoning data, leading to enhanced
math and coding capabilities across modalities. To advance research in the
field, we are releasing the model weights and will open-source the code for the
community: https://nvlm-project.github.io/.Summary
AI-Generated Summary