TimeViper: 効率的な長尺動画理解のためのハイブリッドMamba-Transformer視覚言語モデル
TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
November 20, 2025
著者: Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin
cs.AI
要旨
本論文では、長時間ビデオ理解の課題に取り組むハイブリッド視覚言語モデルTimeViperを提案する。長時間ビデオの処理には、効率的なモデルアーキテクチャと、長大な時間的コンテキストを扱う効果的なメカニズムの両方が求められる。そこでTimeViperは、状態空間モデルの効率性と注意機構の表現力を兼ね備えた、ハイブリッドなMamba-Transformerバックボーンを採用する。このハイブリッド設計を通じて、視覚トークンからテキストトークンへとLLMの層が深くなるにつれて情報が段階的に流れ、視覚トークンの冗長性が深刻化する「視覚-テキスト情報集約現象」を明らかにした。この観察に基づき、マルチモーダル理解能力を維持しつつ視覚トークンを命令トークンに転送・圧縮するトークン情報転送モジュールTransVを提案する。この設計により、TimeViperは10,000フレームを超える時間単位のビデオ処理を可能にする。複数のベンチマークによる大規模な実験により、TimeViperがフレーム数を拡張しつつも最先端モデルと競合する性能を示すことを実証する。さらに、Mamba層とTransformer層の両方の注意メカニズムの挙動を分析し、ハイブリッドモデルの解釈可能性に関する新たな知見を提供する。本研究は、ハイブリッドMamba-Transformerアーキテクチャの開発、解釈、圧縮に向けた最初の一歩を示すものである。
English
We introduce TimeViper, a hybrid vision-language model designed to tackle challenges of long video understanding. Processing long videos demands both an efficient model architecture and an effective mechanism for handling extended temporal contexts. To this end, TimeViper adopts a hybrid Mamba-Transformer backbone that combines the efficiency of state-space models with the expressivity of attention mechanisms. Through this hybrid design, we reveal the vision-to-text information aggregation phenomenon, where information progressively flows from vision tokens to text tokens across increasing LLM depth, resulting in severe vision token redundancy. Motivated by this observation, we propose TransV, a token information transfer module that transfers and compresses vision tokens into instruction tokens while maintaining multimodal understanding capabilities. This design enables TimeViper to process hour-long videos exceeding 10,000 frames. Extensive experiments across multiple benchmarks demonstrate that TimeViper competes with state-of-the-art models while extending frame numbers. We further analyze attention behaviors of both Mamba and Transformer layers, offering new insights into hybrid model interpretability. This work represents an initial step towards developing, interpreting, and compressing hybrid Mamba-Transformer architectures.