Slow-Fast-Architektur für Video-Multi-Modale Large Language Models

papers.abstract

Die Balance zwischen zeitlicher Auflösung und räumlicher Detailgenauigkeit bei begrenztem Rechenbudget bleibt eine zentrale Herausforderung für videobasierte multimodale Large Language Models (MLLMs). Bisherige Methoden komprimieren in der Regel Videodarstellungen nach vordefinierten Regeln, bevor sie in das LLM eingespeist werden, was zu irreversiblen Informationsverlusten führt und oft Eingabeanweisungen ignoriert. Um dies zu adressieren, schlagen wir eine neuartige Slow-Fast-Architektur vor, die diesen Zielkonflikt auf natürliche Weise umgeht und die Verwendung von mehr Eingabeframes bei gleichzeitiger Beibehaltung räumlicher Details ermöglicht. Inspiriert davon, wie Menschen zunächst ein Video überfliegen, bevor sie sich auf relevante Teile konzentrieren, verwendet unser Slow-Fast-Design eine Dual-Token-Strategie: 1) „schnelle“ visuelle Tokens – eine kompakte Menge komprimierter Videomerkmale – werden zusammen mit Text-Embeddings in das LLM eingespeist, um einen schnellen Überblick zu bieten; 2) „langsame“ visuelle Tokens – unkomprimierte Videomerkmale – werden durch speziell entworfene Hybrid-Decoder-Schichten von Text-Embeddings cross-attendiert, was eine anweisungsbewusste Extraktion relevanter visueller Details mit linearer Komplexität ermöglicht. Wir führen eine systematische Exploration durch, um sowohl die Gesamtarchitektur als auch Schlüsselkomponenten zu optimieren. Experimente zeigen, dass unser Modell selbstaufmerksamkeitsbasierte Baselines deutlich übertrifft, die Eingabekapazität von 16 auf 128 Frames bei nur 3 % mehr Rechenaufwand erweitert und eine durchschnittliche Leistungssteigerung von 16 % über fünf Video-Verständnis-Benchmarks erzielt. Unser 7B-Modell erreicht state-of-the-art-Leistung unter Modellen ähnlicher Größe. Darüber hinaus ist unsere Slow-Fast-Architektur ein Plug-and-Play-Design, das in andere Video-MLLMs integriert werden kann, um Effizienz und Skalierbarkeit zu verbessern.

English

Balancing temporal resolution and spatial detail under limited compute budget remains a key challenge for video-based multi-modal large language models (MLLMs). Existing methods typically compress video representations using predefined rules before feeding them into the LLM, resulting in irreversible information loss and often ignoring input instructions. To address this, we propose a novel slow-fast architecture that naturally circumvents this trade-off, enabling the use of more input frames while preserving spatial details. Inspired by how humans first skim a video before focusing on relevant parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual tokens -- a compact set of compressed video features -- are fed into the LLM alongside text embeddings to provide a quick overview; 2) "slow" visual tokens -- uncompressed video features -- are cross-attended by text embeddings through specially designed hybrid decoder layers, enabling instruction-aware extraction of relevant visual details with linear complexity. We conduct systematic exploration to optimize both the overall architecture and key components. Experiments show that our model significantly outperforms self-attention-only baselines, extending the input capacity from 16 to 128 frames with just a 3% increase in computation, and achieving a 16% average performance improvement across five video understanding benchmarks. Our 7B model achieves state-of-the-art performance among models of similar size. Furthermore, our slow-fast architecture is a plug-and-play design that can be integrated into other video MLLMs to improve efficiency and scalability.

Slow-Fast-Architektur für Video-Multi-Modale Large Language Models

Slow-Fast Architecture for Video Multi-Modal Large Language Models

papers.abstract

Support