Vamba: Het begrijpen van uur-lange video's met hybride Mamba-Transformers
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
March 14, 2025
Auteurs: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
cs.AI
Samenvatting
State-of-the-art transformer-gebaseerde grote multimodale modellen (LMMs) hebben moeite met het verwerken van uur-lange video-inputs vanwege de kwadratische complexiteit van de causale self-attention-operaties, wat leidt tot hoge rekenkosten tijdens training en inferentie. Bestaande methoden op basis van tokencompressie verminderen het aantal videotokens, maar gaan vaak gepaard met informatieverlies en blijven inefficiënt voor extreem lange sequenties. In dit artikel verkennen we een orthogonale richting om een hybride Mamba-Transformer-model (VAMBA) te bouwen dat Mamba-2-blokken gebruikt om videotokens te coderen met lineaire complexiteit. Zonder enige tokenreductie kan VAMBA meer dan 1024 frames (640x360) coderen op een enkele GPU, terwijl transformer-gebaseerde modellen slechts 256 frames kunnen coderen. Bij lange video-input realiseert VAMBA een reductie van ten minste 50% in GPU-geheugengebruik tijdens training en inferentie, en verdubbelt bijna de snelheid per trainingsstap in vergelijking met transformer-gebaseerde LMMs. Onze experimentele resultaten tonen aan dat VAMBA de nauwkeurigheid met 4,3% verbetert op de uitdagende uur-lange video-begripbenchmark LVBench ten opzichte van eerdere efficiënte video-LMMs, en sterke prestaties behoudt op een breed scala aan lange en korte video-begriptaken.
English
State-of-the-art transformer-based large multimodal models (LMMs) struggle to
handle hour-long video inputs due to the quadratic complexity of the causal
self-attention operations, leading to high computational costs during training
and inference. Existing token compression-based methods reduce the number of
video tokens but often incur information loss and remain inefficient for
extremely long sequences. In this paper, we explore an orthogonal direction to
build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to
encode video tokens with linear complexity. Without any token reduction, VAMBA
can encode more than 1024 frames (640times360) on a single GPU, while
transformer-based models can only encode 256 frames. On long video input, VAMBA
achieves at least 50% reduction in GPU memory usage during training and
inference, and nearly doubles the speed per training step compared to
transformer-based LMMs. Our experimental results demonstrate that VAMBA
improves accuracy by 4.3% on the challenging hour-long video understanding
benchmark LVBench over prior efficient video LMMs, and maintains strong
performance on a broad spectrum of long and short video understanding tasks.Summary
AI-Generated Summary