VideoLLaMA 3: Modelos Fundamentais Multimodais de Fronteira para Compreensão de Imagens e Vídeos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
Autores: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
Resumo
Neste artigo, propomos o VideoLLaMA3, um modelo de base multimodal mais avançado para compreensão de imagens e vídeos. A filosofia central de design do VideoLLaMA3 é centrada na visão. O significado de "centrado na visão" é duplo: o paradigma de treinamento centrado na visão e o design do framework centrado na visão. A principal ideia do nosso paradigma de treinamento centrado na visão é que dados de alta qualidade imagem-texto são cruciais tanto para a compreensão de imagens quanto de vídeos. Em vez de preparar conjuntos massivos de dados vídeo-texto, focamos na construção de conjuntos de dados imagem-texto em larga escala e de alta qualidade. O VideoLLaMA3 possui quatro etapas de treinamento: 1) etapa de alinhamento centrada na visão, que aquece o codificador e projetor de visão; 2) etapa de pré-treinamento visão-linguagem, que ajusta conjuntamente o codificador de visão, projetor e LLM com dados imagem-texto em larga escala cobrindo vários tipos (incluindo imagens de cena, documentos, gráficos) e dados apenas de texto. 3) etapa de ajuste fino multi-tarefa, que incorpora dados SFT imagem-texto para tarefas downstream e dados vídeo-texto para estabelecer uma base para a compreensão de vídeos. 4) ajuste fino centrado no vídeo, que melhora ainda mais a capacidade do modelo na compreensão de vídeos. Quanto ao design do framework, para capturar melhor detalhes refinados em imagens, o codificador de visão pré-treinado é adaptado para codificar imagens de tamanhos variados em tokens de visão com números correspondentes, em vez de um número fixo de tokens. Para entradas de vídeo, reduzimos o número de tokens de visão de acordo com sua similaridade para que a representação de vídeos seja mais precisa e compacta. Beneficiando-se dos designs centrados na visão, o VideoLLaMA3 alcança desempenhos convincentes em benchmarks de compreensão de imagens e vídeos.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary