LongVILA: Escalando modelos de lenguaje visual de largo contexto para videos largosLongVILA: Scaling Long-Context Visual Language Models for Long Videos
La capacidad de contexto largo es fundamental para los modelos de base multi-modal. Presentamos LongVILA, una solución integral para modelos visión-lenguaje de largo contexto, que incluye sistema, entrenamiento de modelos y desarrollo de conjuntos de datos. En el lado del sistema, introducimos el primer sistema de Paralelismo de Secuencia Multi-Modal (MM-SP) que permite el entrenamiento e inferencia de largo contexto, posibilitando un entrenamiento de longitud de contexto de 2M en 256 GPUs. MM-SP también es eficiente, siendo de 2.1x a 5.7x más rápido que el Paralelismo de Secuencia Estilo Anillo y de 1.1x a 1.4x más rápido que Megatron-LM en configuraciones solo de texto. Además, se integra perfectamente con Hugging Face Transformers. Para el entrenamiento del modelo, proponemos un pipeline de cinco etapas que comprende alineación, pre-entrenamiento, extensión de contexto y ajuste fino supervisado conjunto largo-corto. En cuanto a los conjuntos de datos, construimos meticulosamente conjuntos de datos de pre-entrenamiento visual-lingüístico a gran escala y conjuntos de datos de seguimiento de instrucciones en video largo para respaldar nuestro proceso de entrenamiento en múltiples etapas. La solución integral amplía el número de cuadros factible de VILA en un factor de 128 (de 8 a 1024 cuadros) y mejora la puntuación de subtitulación de video largo de 2.00 a 3.26 (1.6x), logrando un 99.5% de precisión en un video de 1400 cuadros (longitud de contexto de 274k) aguja en un pajar. LongVILA-8B también demuestra una mejora consistente en el rendimiento en videos largos dentro del benchmark VideoMME a medida que aumentan los cuadros de video.