Vamba: Comprensión de videos de una hora de duración con híbridos Mamba-Transformers
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
March 14, 2025
Autores: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) basados en transformadores de última generación tienen dificultades para manejar entradas de video de una hora de duración debido a la complejidad cuadrática de las operaciones de autoatención causal, lo que conlleva altos costos computacionales durante el entrenamiento y la inferencia. Los métodos existentes basados en compresión de tokens reducen el número de tokens de video, pero a menudo incurren en pérdida de información y siguen siendo ineficientes para secuencias extremadamente largas. En este artículo, exploramos una dirección ortogonal para construir un modelo híbrido Mamba-Transformer (VAMBA) que emplea bloques Mamba-2 para codificar tokens de video con complejidad lineal. Sin ninguna reducción de tokens, VAMBA puede codificar más de 1024 fotogramas (640x360) en una sola GPU, mientras que los modelos basados en transformadores solo pueden codificar 256 fotogramas. En entradas de video largas, VAMBA logra una reducción de al menos el 50% en el uso de memoria de GPU durante el entrenamiento y la inferencia, y casi duplica la velocidad por paso de entrenamiento en comparación con los LMMs basados en transformadores. Nuestros resultados experimentales demuestran que VAMBA mejora la precisión en un 4.3% en el desafiante benchmark de comprensión de videos de una hora LVBench sobre los LMMs de video eficientes anteriores, y mantiene un rendimiento sólido en una amplia gama de tareas de comprensión de videos largos y cortos.
English
State-of-the-art transformer-based large multimodal models (LMMs) struggle to
handle hour-long video inputs due to the quadratic complexity of the causal
self-attention operations, leading to high computational costs during training
and inference. Existing token compression-based methods reduce the number of
video tokens but often incur information loss and remain inefficient for
extremely long sequences. In this paper, we explore an orthogonal direction to
build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to
encode video tokens with linear complexity. Without any token reduction, VAMBA
can encode more than 1024 frames (640times360) on a single GPU, while
transformer-based models can only encode 256 frames. On long video input, VAMBA
achieves at least 50% reduction in GPU memory usage during training and
inference, and nearly doubles the speed per training step compared to
transformer-based LMMs. Our experimental results demonstrate that VAMBA
improves accuracy by 4.3% on the challenging hour-long video understanding
benchmark LVBench over prior efficient video LMMs, and maintains strong
performance on a broad spectrum of long and short video understanding tasks.Summary
AI-Generated Summary