ChatPaper.aiChatPaper

NVLM: LLMs Multimodales de Clase Fronteriza Abierta

NVLM: Open Frontier-Class Multimodal LLMs

September 17, 2024
Autores: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI

Resumen

Presentamos NVLM 1.0, una familia de modelos de lenguaje grande multimodales de clase frontera que logran resultados de vanguardia en tareas de visión y lenguaje, compitiendo con los principales modelos propietarios (por ejemplo, GPT-4o) y modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2). Notablemente, NVLM 1.0 muestra un rendimiento mejorado en texto solo sobre su estructura base de modelo de lenguaje grande después del entrenamiento multimodal. En cuanto al diseño del modelo, realizamos una comparación exhaustiva entre modelos multimodales de lenguaje grande solo decodificador (por ejemplo, LLaVA) y modelos basados en atención cruzada (por ejemplo, Flamingo). Basándonos en las fortalezas y debilidades de ambos enfoques, proponemos una arquitectura novedosa que mejora tanto la eficiencia del entrenamiento como las capacidades de razonamiento multimodal. Además, introducimos un diseño de etiquetado de mosaico 1-D para imágenes dinámicas de alta resolución basadas en mosaicos, lo que aumenta significativamente el rendimiento en tareas de razonamiento multimodal y OCR. En cuanto a los datos de entrenamiento, curamos meticulosamente y proporcionamos información detallada sobre nuestros conjuntos de datos de preentrenamiento multimodal y de ajuste fino supervisado. Nuestros hallazgos indican que la calidad del conjunto de datos y la diversidad de tareas son más importantes que la escala, incluso durante la fase de preentrenamiento, en todas las arquitecturas. Destacamos el desarrollo de multimodalidad de calidad de producción para los modelos NVLM-1.0, lo que les permite destacar en tareas de visión y lenguaje mientras mantienen e incluso mejoran el rendimiento en texto solo en comparación con sus estructuras base de modelos de lenguaje grande. Para lograr esto, creamos e integramos un conjunto de datos de texto solo de alta calidad en el entrenamiento multimodal, junto con una cantidad sustancial de datos de matemáticas y razonamiento multimodal, lo que lleva a capacidades mejoradas en matemáticas y codificación en todas las modalidades. Para avanzar en la investigación en el campo, estamos liberando los pesos del modelo y haremos de código abierto para la comunidad: https://nvlm-project.github.io/.
English
We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.

Summary

AI-Generated Summary

PDF752November 16, 2024