Slow-Fast-Architektur für Video-Multi-Modale Large Language Models
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
Autoren: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
Zusammenfassung
Die Balance zwischen zeitlicher Auflösung und räumlicher Detailgenauigkeit bei begrenztem Rechenbudget bleibt eine zentrale Herausforderung für videobasierte multimodale Large Language Models (MLLMs). Bisherige Methoden komprimieren in der Regel Videodarstellungen nach vordefinierten Regeln, bevor sie in das LLM eingespeist werden, was zu irreversiblen Informationsverlusten führt und oft Eingabeanweisungen ignoriert. Um dies zu adressieren, schlagen wir eine neuartige Slow-Fast-Architektur vor, die diesen Zielkonflikt auf natürliche Weise umgeht und die Verwendung von mehr Eingabeframes bei gleichzeitiger Beibehaltung räumlicher Details ermöglicht. Inspiriert davon, wie Menschen zunächst ein Video überfliegen, bevor sie sich auf relevante Teile konzentrieren, verwendet unser Slow-Fast-Design eine Dual-Token-Strategie: 1) „schnelle“ visuelle Tokens – eine kompakte Menge komprimierter Videomerkmale – werden zusammen mit Text-Embeddings in das LLM eingespeist, um einen schnellen Überblick zu bieten; 2) „langsame“ visuelle Tokens – unkomprimierte Videomerkmale – werden durch speziell entworfene Hybrid-Decoder-Schichten von Text-Embeddings cross-attendiert, was eine anweisungsbewusste Extraktion relevanter visueller Details mit linearer Komplexität ermöglicht. Wir führen eine systematische Exploration durch, um sowohl die Gesamtarchitektur als auch Schlüsselkomponenten zu optimieren. Experimente zeigen, dass unser Modell selbstaufmerksamkeitsbasierte Baselines deutlich übertrifft, die Eingabekapazität von 16 auf 128 Frames bei nur 3 % mehr Rechenaufwand erweitert und eine durchschnittliche Leistungssteigerung von 16 % über fünf Video-Verständnis-Benchmarks erzielt. Unser 7B-Modell erreicht state-of-the-art-Leistung unter Modellen ähnlicher Größe. Darüber hinaus ist unsere Slow-Fast-Architektur ein Plug-and-Play-Design, das in andere Video-MLLMs integriert werden kann, um Effizienz und Skalierbarkeit zu verbessern.
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary