ChatPaper.aiChatPaper

TimeViper: 효율적인 장영상 이해를 위한 하이브리드 맘바-트랜스포머 비전-언어 모델

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

November 20, 2025
저자: Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin
cs.AI

초록

본 논문에서는 긴 영상 이해의 과제를 해결하기 위해 설계된 하이브리드 비전-언어 모델인 TimeViper를 소개한다. 긴 영상을 처리하기 위해서는 효율적인 모델 아키텍처와 확장된 시간적 맥락을 처리하는 효과적인 메커니즘 모두가 필요하다. 이를 위해 TimeViper는 상태 공간 모델의 효율성과 어텐션 메커니즘의 표현력을 결합한 하이브리드 Mamba-Transformer 백본을 채택한다. 이러한 하이브리드 설계를 통해 우리는 비전 토큰에서 텍스트 토큰으로 LLM 깊이가 증가함에 따라 정보가 점진적으로 흐르는 비전-텍스트 정보 집약 현상을 발견하였으며, 이로 인해 심각한 비전 토큰 중복이 발생함을 확인했다. 이러한 관찰에 기반하여, 우리는 다중모달 이해 능력을 유지하면서 비전 토큰을 명령어 토큰으로 전달 및 압축하는 토큰 정보 전달 모듈인 TransV를 제안한다. 이 설계는 TimeViper가 10,000프레임을 초과하는 시간 단위의 영상을 처리할 수 있게 한다. 다양한 벤치마크에서 수행한 포괄적인 실험을 통해 TimeViper가 프레임 수를 확장하면서도 최신 모델들과 경쟁력 있는 성능을 보임을 입증한다. 우리는 추가로 Mamba와 Transformer 계층의 어텐션 동작을 분석하여 하이브리드 모델 해석 가능성에 대한 새로운 통찰을 제공한다. 본 연구는 하이브리드 Mamba-Transformer 아키텍처의 개발, 해석 및 압축을 향한 초기 단계를 나타낸다.
English
We introduce TimeViper, a hybrid vision-language model designed to tackle challenges of long video understanding. Processing long videos demands both an efficient model architecture and an effective mechanism for handling extended temporal contexts. To this end, TimeViper adopts a hybrid Mamba-Transformer backbone that combines the efficiency of state-space models with the expressivity of attention mechanisms. Through this hybrid design, we reveal the vision-to-text information aggregation phenomenon, where information progressively flows from vision tokens to text tokens across increasing LLM depth, resulting in severe vision token redundancy. Motivated by this observation, we propose TransV, a token information transfer module that transfers and compresses vision tokens into instruction tokens while maintaining multimodal understanding capabilities. This design enables TimeViper to process hour-long videos exceeding 10,000 frames. Extensive experiments across multiple benchmarks demonstrate that TimeViper competes with state-of-the-art models while extending frame numbers. We further analyze attention behaviors of both Mamba and Transformer layers, offering new insights into hybrid model interpretability. This work represents an initial step towards developing, interpreting, and compressing hybrid Mamba-Transformer architectures.
PDF92December 1, 2025