LongVILA: Schaalvergroting van Visuele Taalmodellen met Lange Context voor Lange Video'sLongVILA: Scaling Long-Context Visual Language Models for Long Videos
Lang-context capaciteit is cruciaal voor multi-modale foundation modellen. Wij introduceren LongVILA, een full-stack oplossing voor lang-context vision-language modellen, inclusief systeem, modeltraining en datasetontwikkeling. Aan de systeemzijde introduceren we het eerste Multi-Modal Sequence Parallelism (MM-SP) systeem dat lang-context training en inferentie mogelijk maakt, waardoor training met een contextlengte van 2M op 256 GPU's mogelijk wordt. MM-SP is ook efficiënt, met een snelheid die 2.1x tot 5.7x hoger ligt dan Ring-Style Sequence Parallelism en 1.1x tot 1.4x hoger dan Megatron-LM in tekst-only instellingen. Bovendien integreert het naadloos met Hugging Face Transformers. Voor modeltraining stellen we een vijfstappenpijplijn voor, bestaande uit alignment, pre-training, contextextensie en lang-kort gezamenlijke supervised fine-tuning. Wat betreft datasets, construeren we zorgvuldig grootschalige visuele taal pre-training datasets en lange video instructie-volgende datasets om ons multi-stappen trainingsproces te ondersteunen. De full-stack oplossing breidt het haalbare aantal frames van VILA uit met een factor 128 (van 8 naar 1024 frames) en verbetert de lange video captioning score van 2.00 naar 3.26 (1.6x), waarbij een nauwkeurigheid van 99.5% wordt bereikt in een 1400-frames video (274k contextlengte) needle in a haystack. LongVILA-8B toont ook een consistente verbetering in prestaties op lange video's binnen de VideoMME benchmark naarmate het aantal videoframes toeneemt.