NVLM: Мультимодальные LLM нового поколения класса Frontier

Аннотация

Мы представляем NVLM 1.0, семейство мультимодальных крупных языковых моделей (LLM) класса фронт-энд, достигающих передовых результатов в задачах видео-языкового взаимодействия, не уступающих ведущим закрытым моделям (например, GPT-4o) и моделям с открытым доступом (например, Llama 3-V 405B и InternVL 2). Замечательно, что NVLM 1.0 показывает улучшенную производительность только с текстом по сравнению со своей базовой LLM после мультимодального обучения. В части конструкции модели мы проводим всестороннее сравнение между мультимодальными LLM только с декодером (например, LLaVA) и моделями на основе кросс-внимания (например, Flamingo). Исходя из сильных и слабых сторон обоих подходов, мы предлагаем новую архитектуру, которая улучшает как эффективность обучения, так и способности к мультимодальному рассуждению. Кроме того, мы представляем дизайн тайл-тегирования 1-D для изображений динамического высокого разрешения на основе тайлов, что значительно повышает производительность в задачах мультимодального рассуждения и OCR. Что касается данных обучения, мы тщательно отбираем и предоставляем подробную информацию о наших мультимодальных предварительном обучении и надзорном дообучении. Наши результаты показывают, что качество набора данных и разнообразие задач важнее масштаба, даже на этапе предварительного обучения, для всех архитектур. Значительно, мы разрабатываем мультимодальность производственного уровня для моделей NVLM-1.0, позволяя им превосходить в задачах видео-языкового взаимодействия, сохраняя и даже улучшая производительность только с текстом по сравнению с их базовыми LLM. Для достижения этого мы создаем и интегрируем набор данных только с текстом высокого качества в мультимодальное обучение, наряду с значительным объемом мультимодальных данных по математике и рассуждениям, что приводит к улучшению способностей в области математики и кодирования в различных модальностях. Для продвижения исследований в этой области мы публикуем веса модели и открываем исходный код для сообщества: https://nvlm-project.github.io/.

English

We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we are releasing the model weights and will open-source the code for the community: https://nvlm-project.github.io/.

NVLM: Мультимодальные LLM нового поколения класса Frontier

NVLM: Open Frontier-Class Multimodal LLMs

Аннотация

Support