Architecture Lente-Rapide pour les Modèles de Langage Multimodaux Vidéo de Grande Taille
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
Auteurs: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
Résumé
Équilibrer la résolution temporelle et les détails spatiaux dans un budget de calcul limité reste un défi majeur pour les modèles de langage multi-modaux (MLLMs) basés sur la vidéo. Les méthodes existantes compressent généralement les représentations vidéo en utilisant des règles prédéfinies avant de les intégrer au LLM, ce qui entraîne une perte d'information irréversible et ignore souvent les instructions d'entrée. Pour résoudre ce problème, nous proposons une nouvelle architecture lente-rapide qui contourne naturellement ce compromis, permettant l'utilisation de davantage de trames d'entrée tout en préservant les détails spatiaux. Inspirés par la manière dont les humains parcourent rapidement une vidéo avant de se concentrer sur les parties pertinentes, notre conception lente-rapide utilise une stratégie à double jeton : 1) les jetons visuels "rapides" — un ensemble compact de caractéristiques vidéo compressées — sont intégrés au LLM avec les embeddings textuels pour fournir un aperçu rapide ; 2) les jetons visuels "lents" — des caractéristiques vidéo non compressées — sont soumis à une attention croisée par les embeddings textuels via des couches de décodeur hybrides spécialement conçues, permettant une extraction de détails visuels pertinents en fonction des instructions avec une complexité linéaire. Nous menons une exploration systématique pour optimiser à la fois l'architecture globale et les composants clés. Les expériences montrent que notre modèle surpasse significativement les bases de référence reposant uniquement sur l'auto-attention, étendant la capacité d'entrée de 16 à 128 trames avec seulement une augmentation de 3 % du calcul, et obtenant une amélioration moyenne de 16 % sur cinq benchmarks de compréhension vidéo. Notre modèle de 7B atteint des performances de pointe parmi les modèles de taille similaire. De plus, notre architecture lente-rapide est une conception plug-and-play qui peut être intégrée à d'autres MLLMs vidéo pour améliorer l'efficacité et l'évolutivité.
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary