ChatPaper.aiChatPaper

Vamba: Compreendendo Vídeos de Longa Duração com Mambas-Transformers Híbridos

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

March 14, 2025
Autores: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
cs.AI

Resumo

Modelos multimodais grandes (LMMs) baseados em transformers de última geração enfrentam dificuldades para processar entradas de vídeo com duração de uma hora devido à complexidade quadrática das operações de autoatenção causal, resultando em altos custos computacionais durante o treinamento e a inferência. Métodos existentes baseados em compressão de tokens reduzem o número de tokens de vídeo, mas frequentemente acarretam perda de informação e permanecem ineficientes para sequências extremamente longas. Neste artigo, exploramos uma direção ortogonal para construir um modelo híbrido Mamba-Transformer (VAMBA) que emprega blocos Mamba-2 para codificar tokens de vídeo com complexidade linear. Sem qualquer redução de tokens, o VAMBA consegue codificar mais de 1024 quadros (640x360) em uma única GPU, enquanto modelos baseados em transformers só conseguem codificar 256 quadros. Em entradas de vídeo longas, o VAMBA alcança uma redução de pelo menos 50% no uso de memória da GPU durante o treinamento e a inferência, e quase dobra a velocidade por etapa de treinamento em comparação com LMMs baseados em transformers. Nossos resultados experimentais demonstram que o VAMBA melhora a precisão em 4,3% no benchmark desafiador de compreensão de vídeos de uma hora LVBench em relação a LMMs de vídeo eficientes anteriores, e mantém um desempenho forte em uma ampla gama de tarefas de compreensão de vídeos longos e curtos.
English
State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640times360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.

Summary

AI-Generated Summary

PDF202March 17, 2025