ChatPaper.aiChatPaper

NVLM: Open Frontier-Class Multimodale LLM's

NVLM: Open Frontier-Class Multimodal LLMs

September 17, 2024
Auteurs: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

Samenvatting

We introduceren NVLM 1.0, een familie van grensverleggende multimodale grote taalmodellen (LLM's) die state-of-the-art resultaten behalen op visie-taal taken, waarbij ze de toonaangevende gepatenteerde modellen (bijv. GPT-4o) en open-access modellen (bijv. Llama 3-V 405B en InternVL 2) evenaren. Opmerkelijk genoeg vertoont NVLM 1.0 verbeterde prestaties op alleen tekst na multimodale training ten opzichte van zijn LLM-basis. Wat betreft modelontwerp voeren we een uitgebreide vergelijking uit tussen alleen-decoder multimodale LLM's (bijv. LLaVA) en modellen gebaseerd op kruislingse aandacht (bijv. Flamingo). Op basis van de sterke en zwakke punten van beide benaderingen stellen we een nieuw architectuur voor die zowel de trainings-efficiëntie als multimodale redeneervaardigheden verbetert. Verder introduceren we een 1-D tegel-tagging ontwerp voor tegel-gebaseerde dynamische hoge-resolutie beelden, wat de prestaties op multimodale redeneer- en OCR-gerelateerde taken aanzienlijk verbetert. Wat betreft trainingsdata cureren we zorgvuldig en verstrekken gedetailleerde informatie over onze multimodale pretraining- en begeleide fine-tuning datasets. Onze bevindingen geven aan dat datasetkwaliteit en taakdiversiteit belangrijker zijn dan schaal, zelfs tijdens de pretraining-fase, over alle architecturen heen. Opmerkelijk is dat we productieklasse multimodaliteit ontwikkelen voor de NVLM-1.0 modellen, waardoor ze uitblinken in visie-taal taken terwijl ze de tekst-only prestaties vergeleken met hun LLM-basis behouden en zelfs verbeteren. Om dit te bereiken creëren en integreren we een hoogwaardige tekst-only dataset in multimodale training, naast een aanzienlijke hoeveelheid multimodale wiskunde- en redeneerdata, wat leidt tot verbeterde wiskunde- en codeervaardigheden over modaliteiten heen. Om onderzoek op dit gebied te bevorderen, stellen we de modelgewichten beschikbaar en zullen we de code open-source maken voor de gemeenschap: https://nvlm-project.github.io/.
English
We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.

Summary

AI-Generated Summary

PDF752November 16, 2024