ChatPaper.aiChatPaper

Vamba: 하이브리드 맘바-트랜스포머를 활용한 시간 단위 비디오 이해

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

March 14, 2025
저자: Weiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen
cs.AI

초록

최첨단 트랜스포머 기반 대규모 멀티모달 모델(LMMs)은 인과적 자기 주의 연산의 이차 복잡성으로 인해 시간 단위의 긴 비디오 입력을 처리하는 데 어려움을 겪으며, 이는 훈련 및 추론 과정에서 높은 계산 비용을 초래합니다. 기존의 토큰 압축 기반 방법들은 비디오 토큰의 수를 줄이지만, 종종 정보 손실을 유발하며 극도로 긴 시퀀스에 대해서는 여전히 비효율적입니다. 본 논문에서는 선형 복잡도로 비디오 토큰을 인코딩하기 위해 Mamba-2 블록을 사용하는 하이브리드 Mamba-Transformer 모델(VAMBA)을 구축하는 새로운 방향을 탐구합니다. 토큰 축소 없이도 VAMBA는 단일 GPU에서 1024개 이상의 프레임(640x360)을 인코딩할 수 있으며, 이는 트랜스포머 기반 모델이 256개 프레임만 인코딩할 수 있는 것과 대조적입니다. 긴 비디오 입력에서 VAMBA는 훈련 및 추론 과정에서 GPU 메모리 사용량을 최소 50% 줄이고, 트랜스포머 기반 LMMs 대비 훈련 단계당 속도를 거의 두 배로 향상시킵니다. 우리의 실험 결과는 VAMBA가 기존의 효율적인 비디오 LMMs 대비 도전적인 시간 단위 비디오 이해 벤치마크 LVBench에서 4.3%의 정확도 향상을 달성하며, 긴 및 짧은 비디오 이해 작업 전반에서 강력한 성능을 유지함을 보여줍니다.
English
State-of-the-art transformer-based large multimodal models (LMMs) struggle to handle hour-long video inputs due to the quadratic complexity of the causal self-attention operations, leading to high computational costs during training and inference. Existing token compression-based methods reduce the number of video tokens but often incur information loss and remain inefficient for extremely long sequences. In this paper, we explore an orthogonal direction to build a hybrid Mamba-Transformer model (VAMBA) that employs Mamba-2 blocks to encode video tokens with linear complexity. Without any token reduction, VAMBA can encode more than 1024 frames (640times360) on a single GPU, while transformer-based models can only encode 256 frames. On long video input, VAMBA achieves at least 50% reduction in GPU memory usage during training and inference, and nearly doubles the speed per training step compared to transformer-based LMMs. Our experimental results demonstrate that VAMBA improves accuracy by 4.3% on the challenging hour-long video understanding benchmark LVBench over prior efficient video LMMs, and maintains strong performance on a broad spectrum of long and short video understanding tasks.

Summary

AI-Generated Summary

PDF202March 17, 2025