NVLM: LLM Multimodali di Classe Open Frontier
NVLM: Open Frontier-Class Multimodal LLMs
September 17, 2024
Autori: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Abstract
Presentiamo NVLM 1.0, una famiglia di modelli di linguaggio di grandi dimensioni (LLM) multimodali di classe di frontiera che raggiungono risultati all'avanguardia su compiti visione-linguaggio, competendo con i principali modelli proprietari (ad esempio, GPT-4o) e modelli in open-access (ad esempio, Llama 3-V 405B e InternVL 2). In modo notevole, NVLM 1.0 mostra un'ulteriore miglioramento delle prestazioni basate solo sul testo rispetto alla sua struttura di base LLM dopo l'addestramento multimodale. Per quanto riguarda il design del modello, effettuiamo un confronto esaustivo tra LLM multimodali basati solo sul decoder (ad esempio, LLaVA) e modelli basati sull'attenzione incrociata (ad esempio, Flamingo). Sulla base dei punti di forza e delle debolezze di entrambi gli approcci, proponiamo un'architettura innovativa che potenzia sia l'efficienza dell'addestramento che le capacità di ragionamento multimodale. Inoltre, introduciamo un design di marcatura a piastrella 1-D per immagini dinamiche ad alta risoluzione basate su piastrelle, che aumenta significativamente le prestazioni su compiti di ragionamento multimodale e correlati all'OCR. Riguardo ai dati di addestramento, curiamo attentamente e forniamo informazioni dettagliate sui nostri set di dati di preaddestramento multimodali e di sintonizzazione fine supervisionata. Le nostre scoperte indicano che la qualità del dataset e la diversità dei compiti sono più importanti della scala, anche durante la fase di preaddestramento, in tutte le architetture. In particolare, sviluppiamo multimodalità di qualità professionale per i modelli NVLM-1.0, consentendo loro di eccellere nei compiti visione-linguaggio mantenendo e persino migliorando le prestazioni basate solo sul testo rispetto alle loro strutture di base LLM. Per raggiungere questo obiettivo, creiamo e integriamo un dataset basato solo sul testo di alta qualità nell'addestramento multimodale, insieme a una quantità sostanziale di dati di matematica e ragionamento multimodale, portando a capacità migliorate di matematica e codifica attraverso le modalità. Per far progredire la ricerca nel settore, rilasceremo i pesi del modello e renderemo open-source il codice per la comunità: https://nvlm-project.github.io/.
English
We introduce NVLM 1.0, a family of frontier-class multimodal large language
models (LLMs) that achieve state-of-the-art results on vision-language tasks,
rivaling the leading proprietary models (e.g., GPT-4o) and open-access models
(e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved
text-only performance over its LLM backbone after multimodal training. In terms
of model design, we perform a comprehensive comparison between decoder-only
multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g.,
Flamingo). Based on the strengths and weaknesses of both approaches, we propose
a novel architecture that enhances both training efficiency and multimodal
reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for
tile-based dynamic high-resolution images, which significantly boosts
performance on multimodal reasoning and OCR-related tasks. Regarding training
data, we meticulously curate and provide detailed information on our multimodal
pretraining and supervised fine-tuning datasets. Our findings indicate that
dataset quality and task diversity are more important than scale, even during
the pretraining phase, across all architectures. Notably, we develop
production-grade multimodality for the NVLM-1.0 models, enabling them to excel
in vision-language tasks while maintaining and even improving text-only
performance compared to their LLM backbones. To achieve this, we craft and
integrate a high-quality text-only dataset into multimodal training, alongside
a substantial amount of multimodal math and reasoning data, leading to enhanced
math and coding capabilities across modalities. To advance research in the
field, we are releasing the model weights and will open-source the code for the
community: https://nvlm-project.github.io/.Summary
AI-Generated Summary