VideoLLaMA 3: Modelos Fundamentales Multimodales de Vanguardia para la Comprensión de Imágenes y Videos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
Autores: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
Resumen
En este documento, proponemos VideoLLaMA3, un modelo de base multimodal más avanzado para la comprensión de imágenes y videos. La filosofía de diseño central de VideoLLaMA3 es centrada en la visión. El significado de "centrado en la visión" es doble: el paradigma de entrenamiento centrado en la visión y el diseño del marco centrado en la visión. La idea clave de nuestro paradigma de entrenamiento centrado en la visión es que los datos de alta calidad imagen-texto son cruciales tanto para la comprensión de imágenes como de videos. En lugar de preparar conjuntos de datos masivos de video-texto, nos enfocamos en la construcción de conjuntos de datos imagen-texto a gran escala y de alta calidad. VideoLLaMA3 consta de cuatro etapas de entrenamiento: 1) etapa de alineación centrada en la visión, que prepara el codificador y proyector de visión; 2) etapa de preentrenamiento visión-lenguaje, que ajusta conjuntamente el codificador de visión, proyector y LLM con datos imagen-texto a gran escala que cubren varios tipos (incluyendo imágenes de escenas, documentos, gráficos) así como datos solo de texto; 3) etapa de ajuste fino multi-tarea, que incorpora datos SFT imagen-texto para tareas posteriores y datos video-texto para establecer una base para la comprensión de videos; 4) ajuste fino centrado en video, que mejora aún más la capacidad del modelo en la comprensión de videos. En cuanto al diseño del marco, para capturar mejor detalles detallados en las imágenes, el codificador de visión preentrenado se adapta para codificar imágenes de tamaños variables en tokens de visión con números correspondientes, en lugar de un número fijo de tokens. Para las entradas de video, reducimos el número de tokens de visión según su similitud para que la representación de los videos sea más precisa y compacta. Gracias a los diseños centrados en la visión, VideoLLaMA3 logra un rendimiento convincente en los puntos de referencia de comprensión de imágenes y videos.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary