LongVILA: Skalierung von Visual Language Models mit langem Kontext für lange VideosLongVILA: Scaling Long-Context Visual Language Models for Long Videos
Die Fähigkeit für einen langen Kontext ist entscheidend für multimodale Grundlagenmodelle. Wir stellen LongVILA vor, eine Full-Stack-Lösung für Vision-Language-Modelle mit langem Kontext, einschließlich System, Modelltraining und Datensatzentwicklung. Auf der Systemseite stellen wir das erste Multi-Modal Sequence Parallelism (MM-SP)-System vor, das ein Training und Inferenz mit langem Kontext ermöglicht und ein Training mit einer Kontextlänge von 2M auf 256 GPUs ermöglicht. MM-SP ist auch effizient und 2,1- bis 5,7-mal schneller als Ring-Style Sequence Parallelism und 1,1- bis 1,4-mal schneller als Megatron-LM in reinen Texteinstellungen. Darüber hinaus integriert es nahtlos mit Hugging Face Transformers. Für das Modelltraining schlagen wir eine fünfstufige Pipeline vor, bestehend aus Ausrichtung, Vor-Training, Kontexterweiterung und lang-kurz gemeinsam überwachtem Feintuning. In Bezug auf Datensätze konstruieren wir sorgfältig groß angelegte visuelle Sprachvor-Training-Datensätze und lange Videoanweisungsfolge-Datensätze, um unseren mehrstufigen Trainingsprozess zu unterstützen. Die Full-Stack-Lösung erweitert die mögliche Rahmenanzahl von VILA um den Faktor 128 (von 8 auf 1024 Frames) und verbessert die Bewertung für die langen Video-Untertitel von 2,00 auf 3,26 (1,6-fach), erreicht eine Genauigkeit von 99,5% in 1400-Frames-Videos (274k Kontextlänge) wie die Nadel im Heuhaufen. LongVILA-8B zeigt auch eine konsistente Leistungsverbesserung bei langen Videos im VideoMME-Benchmark, wenn die Video-Frames zunehmen.