ChatPaper.aiChatPaper

TimeViper: Ein hybrides Mamba-Transformer-Vision-Sprache-Modell für effizientes Verständnis langer Videos

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

November 20, 2025
papers.authors: Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin
cs.AI

papers.abstract

Wir stellen TimeViper vor, ein hybrides Vision-Language-Modell, das entwickelt wurde, um die Herausforderungen des Verstehens langer Videos zu bewältigen. Die Verarbeitung langer Videos erfordert sowohl eine effiziente Modellarchitektur als auch einen effektiven Mechanismus zur Handhabung erweiterter zeitlicher Kontexte. Zu diesem Zweck verwendet TimeViper ein hybrides Mamba-Transformer-Backbone, das die Effizienz von State-Space-Modellen mit der Ausdrucksstärke von Aufmerksamkeitsmechanismen kombiniert. Durch dieses hybride Design zeigen wir das Phänomen der Informationsaggregation von Vision- zu Text-Tokens auf, bei dem Informationen mit zunehmender LLM-Tiefe fortschreitend von Vision-Tokens zu Text-Tokens fließen, was zu einer erheblichen Redundanz der Vision-Tokens führt. Aufbauend auf dieser Beobachtung schlagen wir TransV vor, ein Modul zum Transfer von Token-Informationen, das Vision-Tokens unter Beibehaltung multimodaler Verstehensfähigkeiten in Instruktions-Tokens überträgt und komprimiert. Dieses Design ermöglicht es TimeViper, stundenlange Videos mit über 10.000 Einzelbildern zu verarbeiten. Umfangreiche Experimente in mehreren Benchmarks zeigen, dass TimeViper mit state-of-the-art Modellen konkurrieren kann und dabei die Anzahl der verarbeitbaren Einzelbilder erheblich erweitert. Wir analysieren weiterhin die Aufmerksamkeitsmechanismen sowohl von Mamba- als auch von Transformer-Schichten und bieten neue Einblicke in die Interpretierbarkeit hybrider Modelle. Diese Arbeit stellt einen ersten Schritt in Richtung Entwicklung, Interpretation und Kompression hybrider Mamba-Transformer-Architekturen dar.
English
We introduce TimeViper, a hybrid vision-language model designed to tackle challenges of long video understanding. Processing long videos demands both an efficient model architecture and an effective mechanism for handling extended temporal contexts. To this end, TimeViper adopts a hybrid Mamba-Transformer backbone that combines the efficiency of state-space models with the expressivity of attention mechanisms. Through this hybrid design, we reveal the vision-to-text information aggregation phenomenon, where information progressively flows from vision tokens to text tokens across increasing LLM depth, resulting in severe vision token redundancy. Motivated by this observation, we propose TransV, a token information transfer module that transfers and compresses vision tokens into instruction tokens while maintaining multimodal understanding capabilities. This design enables TimeViper to process hour-long videos exceeding 10,000 frames. Extensive experiments across multiple benchmarks demonstrate that TimeViper competes with state-of-the-art models while extending frame numbers. We further analyze attention behaviors of both Mamba and Transformer layers, offering new insights into hybrid model interpretability. This work represents an initial step towards developing, interpreting, and compressing hybrid Mamba-Transformer architectures.
PDF92December 1, 2025