Quand les Tokens Parlent Trop : Une Étude sur la Compression des Tokens à Contexte Long Multimodal à Travers les Images, les Vidéos et les Audios
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
July 27, 2025
papers.authors: Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande envergure (MLLMs) ont réalisé des progrès remarquables, principalement grâce à leur capacité à traiter des contextes de plus en plus longs et complexes, tels que des images haute résolution, des séquences vidéo étendues et des entrées audio prolongées. Bien que cette capacité améliore significativement les performances des MLLMs, elle introduit des défis computationnels substantiels, principalement dus à la complexité quadratique des mécanismes d'auto-attention avec un grand nombre de tokens d'entrée. Pour atténuer ces goulots d'étranglement, la compression de tokens est apparue comme une approche prometteuse et critique, réduisant efficacement le nombre de tokens pendant l'entraînement et l'inférence. Dans cet article, nous présentons la première revue systématique et synthèse du domaine en plein essor de la compression de tokens pour les contextes longs multimodaux. Reconnaissant que les stratégies de compression efficaces sont profondément liées aux caractéristiques et redondances uniques de chaque modalité, nous catégorisons les approches existantes selon leur principal focus de données, permettant aux chercheurs d'accéder rapidement et d'apprendre des méthodes adaptées à leur domaine d'intérêt spécifique : (1) la compression centrée sur l'image, qui traite de la redondance spatiale dans les données visuelles ; (2) la compression centrée sur la vidéo, qui aborde la redondance spatio-temporelle dans les séquences dynamiques ; et (3) la compression centrée sur l'audio, qui gère la redondance temporelle et spectrale dans les signaux acoustiques. Au-delà de cette catégorisation axée sur les modalités, nous disséquons également les méthodes en fonction de leurs mécanismes sous-jacents, incluant les approches basées sur la transformation, la similarité, l'attention et les requêtes. En fournissant un aperçu complet et structuré, cette revue vise à consolider les progrès actuels, identifier les défis clés et inspirer les futures directions de recherche dans ce domaine en évolution rapide. Nous maintenons également un dépôt public pour suivre et mettre à jour continuellement les dernières avancées dans ce domaine prometteur.
English
Multimodal large language models (MLLMs) have made remarkable strides,
largely driven by their ability to process increasingly long and complex
contexts, such as high-resolution images, extended video sequences, and lengthy
audio input. While this ability significantly enhances MLLM capabilities, it
introduces substantial computational challenges, primarily due to the quadratic
complexity of self-attention mechanisms with numerous input tokens. To mitigate
these bottlenecks, token compression has emerged as an auspicious and critical
approach, efficiently reducing the number of tokens during both training and
inference. In this paper, we present the first systematic survey and synthesis
of the burgeoning field of multimodal long context token compression.
Recognizing that effective compression strategies are deeply tied to the unique
characteristics and redundancies of each modality, we categorize existing
approaches by their primary data focus, enabling researchers to quickly access
and learn methods tailored to their specific area of interest: (1)
image-centric compression, which addresses spatial redundancy in visual data;
(2) video-centric compression, which tackles spatio-temporal redundancy in
dynamic sequences; and (3) audio-centric compression, which handles temporal
and spectral redundancy in acoustic signals. Beyond this modality-driven
categorization, we further dissect methods based on their underlying
mechanisms, including transformation-based, similarity-based, attention-based,
and query-based approaches. By providing a comprehensive and structured
overview, this survey aims to consolidate current progress, identify key
challenges, and inspire future research directions in this rapidly evolving
domain. We also maintain a public repository to continuously track and update
the latest advances in this promising area.