VideoLLaMA 3: Фундаментальные мультимодальные модели для понимания изображений и видео в области исследований.
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
Авторы: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
Аннотация
В данной статье мы предлагаем VideoLLaMA3, более продвинутую мультимодальную базовую модель для понимания изображений и видео. Основная философия дизайна VideoLLaMA3 ориентирована на зрение. Понятие "ориентированность на зрение" имеет двойное значение: парадигма обучения, ориентированная на зрение, и дизайн фреймворка, ориентированный на зрение. Основное открытие нашей парадигмы обучения, ориентированной на зрение, заключается в том, что высококачественные данные изображений и текста критичны как для понимания изображений, так и видео. Вместо подготовки обширных наборов данных видео-текста, мы сосредотачиваемся на создании крупномасштабных и высококачественных наборов данных изображений и текста. VideoLLaMA3 имеет четыре этапа обучения: 1) этап выравнивания, ориентированный на зрение, который подготавливает к работе кодировщик и проектор зрения; 2) этап предварительного обучения зрение-язык, который совместно настраивает кодировщик зрения, проектор и LLM с крупномасштабными данными изображений и текста, охватывающими несколько типов (включая изображения сцен, документы, диаграммы), а также данные только текста; 3) этап многозадачной донастройки, который включает данные SFT изображений-текста для последующих задач и данные видео-текста для установления основы для понимания видео; 4) донастройка, ориентированная на видео, которая дополнительно улучшает способности модели в понимании видео. Что касается дизайна фреймворка, для более точного захвата мелких деталей на изображениях, предварительно обученный кодировщик зрения адаптирован для кодирования изображений различных размеров в зрительные токены с соответствующими номерами, а не фиксированным количеством токенов. Для видеовходов мы уменьшаем количество зрительных токенов в соответствии с их сходством, чтобы представление видео было более точным и компактным. Благодаря ориентированным на зрение конструкциям, VideoLLaMA3 достигает впечатляющих результатов как в бенчмарках понимания изображений, так и видео.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary