LongVILA: Dimensionando Modelos de Linguagem Visual de Longo Contexto para Vídeos LongosLongVILA: Scaling Long-Context Visual Language Models for Long Videos
A capacidade de longo contexto é fundamental para modelos de base multimodal. Apresentamos o LongVILA, uma solução completa para modelos visão-linguagem de longo contexto, incluindo sistema, treinamento de modelo e desenvolvimento de conjunto de dados. No lado do sistema, introduzimos o primeiro sistema de Paralelismo de Sequência Multi-Modal (MM-SP) que permite treinamento e inferência de longo contexto, possibilitando treinamento com comprimento de contexto de 2M em 256 GPUs. O MM-SP também é eficiente, sendo de 2,1x a 5,7x mais rápido do que o Paralelismo de Sequência Estilo Anel e de 1,1x a 1,4x mais rápido do que o Megatron-LM em configurações apenas de texto. Além disso, ele se integra perfeitamente com os Transformers da Hugging Face. Para o treinamento do modelo, propomos um pipeline de cinco estágios compreendendo alinhamento, pré-treinamento, extensão de contexto e ajuste fino supervisionado conjunto de longo-curto. Em relação aos conjuntos de dados, construímos meticulosamente conjuntos de dados de pré-treinamento visual-linguagem em grande escala e conjuntos de dados de instruções de vídeo longo para apoiar nosso processo de treinamento em múltiplos estágios. A solução completa estende o número de quadros viáveis do VILA por um fator de 128 (de 8 para 1024 quadros) e melhora a pontuação de legenda de vídeo longo de 2,00 para 3,26 (1,6x), alcançando 99,5% de precisão em vídeos de 1400 quadros (comprimento de contexto de 274k) agulha no palheiro. O LongVILA-8B também demonstra uma melhoria consistente no desempenho em vídeos longos dentro do benchmark VideoMME à medida que os quadros de vídeo aumentam.