Wenn Token zu viel reden: Eine Übersicht zur multimodalen Langkontext-Token-Kompression bei Bildern, Videos und Audios
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
July 27, 2025
papers.authors: Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte erzielt, die maßgeblich durch ihre Fähigkeit getrieben werden, zunehmend lange und komplexe Kontexte zu verarbeiten, wie beispielsweise hochauflösende Bilder, ausgedehnte Videosequenzen und lange Audioeingaben. Während diese Fähigkeit die Leistungsfähigkeit von MLLMs erheblich steigert, führt sie auch zu erheblichen rechnerischen Herausforderungen, die hauptsächlich auf die quadratische Komplexität von Selbstaufmerksamkeitsmechanismen bei einer Vielzahl von Eingabe-Tokens zurückzuführen sind. Um diese Engpässe zu mildern, hat sich die Token-Komprimierung als vielversprechender und kritischer Ansatz herausgestellt, der die Anzahl der Tokens sowohl während des Trainings als auch der Inferenz effizient reduziert. In diesem Artikel präsentieren wir die erste systematische Übersicht und Synthese des aufstrebenden Forschungsgebiets der multimodalen Langkontext-Token-Komprimierung. In der Erkenntnis, dass effektive Komprimierungsstrategien eng mit den einzigartigen Eigenschaften und Redundanzen jeder Modalität verbunden sind, kategorisieren wir bestehende Ansätze nach ihrem primären Datenfokus, um Forschern einen schnellen Zugang zu maßgeschneiderten Methoden für ihr spezifisches Interessengebiet zu ermöglichen: (1) bildzentrierte Komprimierung, die räumliche Redundanzen in visuellen Daten adressiert; (2) videozentrierte Komprimierung, die räumlich-zeitliche Redundanzen in dynamischen Sequenzen behandelt; und (3) audiozentrierte Komprimierung, die zeitliche und spektrale Redundanzen in akustischen Signalen bewältigt. Über diese modalitätsgetriebene Kategorisierung hinaus analysieren wir Methoden weiterhin basierend auf ihren zugrunde liegenden Mechanismen, einschließlich transformationsbasierter, ähnlichkeitsbasierter, aufmerksamkeitsbasierter und abfragebasierter Ansätze. Durch die Bereitstellung eines umfassenden und strukturierten Überblicks zielt diese Übersicht darauf ab, den aktuellen Fortschritt zu konsolidieren, zentrale Herausforderungen zu identifizieren und zukünftige Forschungsrichtungen in diesem sich schnell entwickelnden Bereich zu inspirieren. Wir pflegen zudem ein öffentliches Repository, um die neuesten Fortschritte in diesem vielversprechenden Gebiet kontinuierlich zu verfolgen und zu aktualisieren.
English
Multimodal large language models (MLLMs) have made remarkable strides,
largely driven by their ability to process increasingly long and complex
contexts, such as high-resolution images, extended video sequences, and lengthy
audio input. While this ability significantly enhances MLLM capabilities, it
introduces substantial computational challenges, primarily due to the quadratic
complexity of self-attention mechanisms with numerous input tokens. To mitigate
these bottlenecks, token compression has emerged as an auspicious and critical
approach, efficiently reducing the number of tokens during both training and
inference. In this paper, we present the first systematic survey and synthesis
of the burgeoning field of multimodal long context token compression.
Recognizing that effective compression strategies are deeply tied to the unique
characteristics and redundancies of each modality, we categorize existing
approaches by their primary data focus, enabling researchers to quickly access
and learn methods tailored to their specific area of interest: (1)
image-centric compression, which addresses spatial redundancy in visual data;
(2) video-centric compression, which tackles spatio-temporal redundancy in
dynamic sequences; and (3) audio-centric compression, which handles temporal
and spectral redundancy in acoustic signals. Beyond this modality-driven
categorization, we further dissect methods based on their underlying
mechanisms, including transformation-based, similarity-based, attention-based,
and query-based approaches. By providing a comprehensive and structured
overview, this survey aims to consolidate current progress, identify key
challenges, and inspire future research directions in this rapidly evolving
domain. We also maintain a public repository to continuously track and update
the latest advances in this promising area.