LongVILA: Scalabilità di Modelli Linguistico-Visuali a Lungo Contesto per Video Lunghi

Abstract

La capacità di gestire contesti lunghi è fondamentale per i modelli fondazionali multimodali. Presentiamo LongVILA, una soluzione completa per modelli visione-linguaggio a contesto lungo, che include sistema, addestramento del modello e sviluppo di dataset. Sul lato del sistema, introduciamo il primo sistema di Parallelismo di Sequenza Multi-Modale (MM-SP) che abilita l'addestramento e l'inferenza a contesto lungo, consentendo l'addestramento con una lunghezza di contesto di 2M su 256 GPU. MM-SP è anche efficiente, essendo da 2,1x a 5,7x più veloce rispetto al Parallelismo di Sequenza in stile Ring e da 1,1x a 1,4x più veloce rispetto a Megatron-LM in contesti esclusivamente testuali. Inoltre, si integra perfettamente con Hugging Face Transformers. Per l'addestramento del modello, proponiamo una pipeline in cinque fasi che comprende allineamento, pre-addestramento, estensione del contesto e fine-tuning supervisionato congiunto lungo-corto. Per quanto riguarda i dataset, costruiamo meticolosamente dataset di pre-addestramento su larga scala per il linguaggio visivo e dataset di istruzioni seguite su video lunghi per supportare il nostro processo di addestramento multi-fase. La soluzione completa estende il numero di frame fattibili di VILA di un fattore 128 (da 8 a 1024 frame) e migliora il punteggio di descrizione di video lunghi da 2,00 a 3,26 (1,6x), raggiungendo il 99,5% di accuratezza in un video di 1400 frame (274k lunghezza di contesto) "ago in un pagliaio". LongVILA-8B dimostra anche un miglioramento costante delle prestazioni su video lunghi all'interno del benchmark VideoMME all'aumentare dei frame del video.

English

Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP) system that enables long-context training and inference, enabling 2M context length training on 256 GPUs. MM-SP is also efficient, being 2.1x - 5.7x faster than Ring-Style Sequence Parallelism and 1.1x - 1.4x faster than Megatron-LM in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, context extension, and long-short joint supervised fine-tuning. Regarding datasets, we meticulously construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. The full-stack solution extends the feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle in a haystack. LongVILA-8B also demonstrates a consistent improvement in performance on long videos within the VideoMME benchmark as the video frames increase.

LongVILA: Scalabilità di Modelli Linguistico-Visuali a Lungo Contesto per Video Lunghi

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Abstract

Support