VideoLLaMA 3: Modelli Fondamentali Multimodali di Frontiera per la Comprensione di Immagini e Video
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
January 22, 2025
Autori: Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
cs.AI
Abstract
In questo articolo, proponiamo VideoLLaMA3, un modello fondamentale multimodale più avanzato per la comprensione di immagini e video. La filosofia di progettazione centrale di VideoLLaMA3 è incentrata sulla visione. Il significato di "vision-centric" è duplice: il paradigma di addestramento centrato sulla visione e la progettazione del framework centrato sulla visione. La chiave della nostra visione del paradigma di addestramento centrato sulla visione è che i dati di alta qualità immagine-testo sono cruciali sia per la comprensione delle immagini che dei video. Invece di preparare enormi set di dati video-testo, ci concentriamo sulla costruzione di set di dati immagine-testo su larga scala e di alta qualità. VideoLLaMA3 ha quattro fasi di addestramento: 1) fase di allineamento centrata sulla visione, che prepara l'encoder e il proiettore della visione; 2) fase di preaddestramento visione-linguaggio, che ottimizza congiuntamente l'encoder della visione, il proiettore e LLM con dati immagine-testo su larga scala che coprono vari tipi (inclusi immagini di scene, documenti, grafici) e dati solo testo. 3) fase di raffinamento multi-task, che incorpora dati SFT immagine-testo per compiti successivi e dati video-testo per stabilire una base per la comprensione dei video. 4) raffinamento centrato sui video, che migliora ulteriormente la capacità del modello nella comprensione dei video. Per quanto riguarda la progettazione del framework, per catturare meglio dettagli fini nelle immagini, l'encoder della visione preaddestrato è adattato per codificare immagini di dimensioni variabili in token della visione con numeri corrispondenti, piuttosto che un numero fisso di token. Per gli input video, riduciamo il numero di token della visione in base alla loro similarità in modo che la rappresentazione dei video sia più precisa e compatta. Grazie ai design centrati sulla visione, VideoLLaMA3 raggiunge prestazioni convincenti sia nei benchmark di comprensione delle immagini che dei video.
English
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation
model for image and video understanding. The core design philosophy of
VideoLLaMA3 is vision-centric. The meaning of "vision-centric" is two-fold: the
vision-centric training paradigm and vision-centric framework design. The key
insight of our vision-centric training paradigm is that high-quality image-text
data is crucial for both image and video understanding. Instead of preparing
massive video-text datasets, we focus on constructing large-scale and
high-quality image-text datasets. VideoLLaMA3 has four training stages: 1)
vision-centric alignment stage, which warms up the vision encoder and
projector; 2) vision-language pretraining stage, which jointly tunes the vision
encoder, projector, and LLM with large-scale image-text data covering multiple
types (including scene images, documents, charts) as well as text-only data. 3)
multi-task fine-tuning stage, which incorporates image-text SFT data for
downstream tasks and video-text data to establish a foundation for video
understanding. 4) video-centric fine-tuning, which further improves the model's
capability in video understanding. As for the framework design, to better
capture fine-grained details in images, the pretrained vision encoder is
adapted to encode images of varying sizes into vision tokens with corresponding
numbers, rather than a fixed number of tokens. For video inputs, we reduce the
number of vision tokens according to their similarity so that the
representation of videos will be more precise and compact. Benefit from
vision-centric designs, VideoLLaMA3 achieves compelling performances in both
image and video understanding benchmarks.Summary
AI-Generated Summary