ChatPaper.aiChatPaper

NVLM: Modelos de Linguagem Multimodais de Classe Fronteira Aberta

NVLM: Open Frontier-Class Multimodal LLMs

September 17, 2024
Autores: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

Resumo

Apresentamos o NVLM 1.0, uma família de modelos de linguagem grandes multimodais de classe de fronteira que alcançam resultados de ponta em tarefas de visão e linguagem, rivalizando com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto (por exemplo, Llama 3-V 405B e InternVL 2). Notavelmente, o NVLM 1.0 demonstra um desempenho aprimorado em texto puro em relação à sua estrutura de modelo de linguagem grande após o treinamento multimodal. Em termos de design do modelo, realizamos uma comparação abrangente entre modelos de linguagem grandes multimodais apenas com decodificador (por exemplo, LLaVA) e modelos baseados em atenção cruzada (por exemplo, Flamingo). Com base nos pontos fortes e fracos de ambas as abordagens, propomos uma arquitetura inovadora que aprimora tanto a eficiência de treinamento quanto as capacidades de raciocínio multimodal. Além disso, introduzimos um design de marcação de mosaico 1-D para imagens dinâmicas de alta resolução baseadas em mosaico, o que melhora significativamente o desempenho em tarefas de raciocínio multimodal e relacionadas à OCR. Em relação aos dados de treinamento, curamos meticulosamente e fornecemos informações detalhadas sobre nossos conjuntos de dados de pré-treinamento multimodal e de ajuste fino supervisionado. Nossas descobertas indicam que a qualidade do conjunto de dados e a diversidade de tarefas são mais importantes do que a escala, mesmo durante a fase de pré-treinamento, em todas as arquiteturas. Notavelmente, desenvolvemos multimodalidade de qualidade de produção para os modelos NVLM-1.0, permitindo que se destaquem em tarefas de visão e linguagem, mantendo e até melhorando o desempenho em texto puro em comparação com suas estruturas de modelo de linguagem grande. Para alcançar isso, elaboramos e integramos um conjunto de dados de texto puro de alta qualidade no treinamento multimodal, juntamente com uma quantidade substancial de dados multimodais de matemática e raciocínio, levando a capacidades aprimoradas de matemática e codificação em diferentes modalidades. Para avançar na pesquisa no campo, estamos disponibilizando os pesos do modelo e iremos disponibilizar o código para a comunidade em código aberto: https://nvlm-project.github.io/.
English
We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.

Summary

AI-Generated Summary

PDF752November 16, 2024