LongVILA: Skalierung von Visual Language Models mit langem Kontext für lange Videos

papers.abstract

Die Fähigkeit für einen langen Kontext ist entscheidend für multimodale Grundlagenmodelle. Wir stellen LongVILA vor, eine Full-Stack-Lösung für Vision-Language-Modelle mit langem Kontext, einschließlich System, Modelltraining und Datensatzentwicklung. Auf der Systemseite stellen wir das erste Multi-Modal Sequence Parallelism (MM-SP)-System vor, das ein Training und Inferenz mit langem Kontext ermöglicht und ein Training mit einer Kontextlänge von 2M auf 256 GPUs ermöglicht. MM-SP ist auch effizient und 2,1- bis 5,7-mal schneller als Ring-Style Sequence Parallelism und 1,1- bis 1,4-mal schneller als Megatron-LM in reinen Texteinstellungen. Darüber hinaus integriert es nahtlos mit Hugging Face Transformers. Für das Modelltraining schlagen wir eine fünfstufige Pipeline vor, bestehend aus Ausrichtung, Vor-Training, Kontexterweiterung und lang-kurz gemeinsam überwachtem Feintuning. In Bezug auf Datensätze konstruieren wir sorgfältig groß angelegte visuelle Sprachvor-Training-Datensätze und lange Videoanweisungsfolge-Datensätze, um unseren mehrstufigen Trainingsprozess zu unterstützen. Die Full-Stack-Lösung erweitert die mögliche Rahmenanzahl von VILA um den Faktor 128 (von 8 auf 1024 Frames) und verbessert die Bewertung für die langen Video-Untertitel von 2,00 auf 3,26 (1,6-fach), erreicht eine Genauigkeit von 99,5% in 1400-Frames-Videos (274k Kontextlänge) wie die Nadel im Heuhaufen. LongVILA-8B zeigt auch eine konsistente Leistungsverbesserung bei langen Videos im VideoMME-Benchmark, wenn die Video-Frames zunehmen.

English

Long-context capability is critical for multi-modal foundation models. We introduce LongVILA, a full-stack solution for long-context vision-language models, including system, model training, and dataset development. On the system side, we introduce the first Multi-Modal Sequence Parallelism (MM-SP) system that enables long-context training and inference, enabling 2M context length training on 256 GPUs. MM-SP is also efficient, being 2.1x - 5.7x faster than Ring-Style Sequence Parallelism and 1.1x - 1.4x faster than Megatron-LM in text-only settings. Moreover, it seamlessly integrates with Hugging Face Transformers. For model training, we propose a five-stage pipeline comprising alignment, pre-training, context extension, and long-short joint supervised fine-tuning. Regarding datasets, we meticulously construct large-scale visual language pre-training datasets and long video instruction-following datasets to support our multi-stage training process. The full-stack solution extends the feasible frame number of VILA by a factor of 128 (from 8 to 1024 frames) and improves long video captioning score from 2.00 to 3.26 (1.6x), achieving 99.5% accuracy in 1400-frames video (274k context length) needle in a haystack. LongVILA-8B also demonstrates a consistent improvement in performance on long videos within the VideoMME benchmark as the video frames increase.

LongVILA: Skalierung von Visual Language Models mit langem Kontext für lange Videos

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

papers.abstract

Support