LongVILA: Schaalvergroting van Visuele Taalmodellen met Lange Context voor Lange Video's

Samenvatting

Lang-context capaciteit is cruciaal voor multi-modale foundation modellen. Wij introduceren LongVILA, een full-stack oplossing voor lang-context vision-language modellen, inclusief systeem, modeltraining en datasetontwikkeling. Aan de systeemzijde introduceren we het eerste Multi-Modal Sequence Parallelism (MM-SP) systeem dat lang-context training en inferentie mogelijk maakt, waardoor training met een contextlengte van 2M op 256 GPU's mogelijk wordt. MM-SP is ook efficiënt, met een snelheid die 2.1x tot 5.7x hoger ligt dan Ring-Style Sequence Parallelism en 1.1x tot 1.4x hoger dan Megatron-LM in tekst-only instellingen. Bovendien integreert het naadloos met Hugging Face Transformers. Voor modeltraining stellen we een vijfstappenpijplijn voor, bestaande uit alignment, pre-training, contextextensie en lang-kort gezamenlijke supervised fine-tuning. Wat betreft datasets, construeren we zorgvuldig grootschalige visuele taal pre-training datasets en lange video instructie-volgende datasets om ons multi-stappen trainingsproces te ondersteunen. De full-stack oplossing breidt het haalbare aantal frames van VILA uit met een factor 128 (van 8 naar 1024 frames) en verbetert de lange video captioning score van 2.00 naar 3.26 (1.6x), waarbij een nauwkeurigheid van 99.5% wordt bereikt in een 1400-frames video (274k contextlengte) needle in a haystack. LongVILA-8B toont ook een consistente verbetering in prestaties op lange video's binnen de VideoMME benchmark naarmate het aantal videoframes toeneemt.

English

Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP) system that enables long-context training and inference, enabling 2M context length training on 256 GPUs. MM-SP is also efficient, being 2.1x - 5.7x faster than Ring-Style Sequence Parallelism and 1.1x - 1.4x faster than Megatron-LM in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, context extension, and long-short joint supervised fine-tuning. Regarding datasets, we meticulously construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. The full-stack solution extends the feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle in a haystack. LongVILA-8B also demonstrates a consistent improvement in performance on long videos within the VideoMME benchmark as the video frames increase.

LongVILA: Schaalvergroting van Visuele Taalmodellen met Lange Context voor Lange Video's

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Samenvatting

Summary

Support

Support