Wenn Token zu viel reden: Eine Übersicht zur multimodalen Langkontext-Token-Kompression bei Bildern, Videos und Audios

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte erzielt, die maßgeblich durch ihre Fähigkeit getrieben werden, zunehmend lange und komplexe Kontexte zu verarbeiten, wie beispielsweise hochauflösende Bilder, ausgedehnte Videosequenzen und lange Audioeingaben. Während diese Fähigkeit die Leistungsfähigkeit von MLLMs erheblich steigert, führt sie auch zu erheblichen rechnerischen Herausforderungen, die hauptsächlich auf die quadratische Komplexität von Selbstaufmerksamkeitsmechanismen bei einer Vielzahl von Eingabe-Tokens zurückzuführen sind. Um diese Engpässe zu mildern, hat sich die Token-Komprimierung als vielversprechender und kritischer Ansatz herausgestellt, der die Anzahl der Tokens sowohl während des Trainings als auch der Inferenz effizient reduziert. In diesem Artikel präsentieren wir die erste systematische Übersicht und Synthese des aufstrebenden Forschungsgebiets der multimodalen Langkontext-Token-Komprimierung. In der Erkenntnis, dass effektive Komprimierungsstrategien eng mit den einzigartigen Eigenschaften und Redundanzen jeder Modalität verbunden sind, kategorisieren wir bestehende Ansätze nach ihrem primären Datenfokus, um Forschern einen schnellen Zugang zu maßgeschneiderten Methoden für ihr spezifisches Interessengebiet zu ermöglichen: (1) bildzentrierte Komprimierung, die räumliche Redundanzen in visuellen Daten adressiert; (2) videozentrierte Komprimierung, die räumlich-zeitliche Redundanzen in dynamischen Sequenzen behandelt; und (3) audiozentrierte Komprimierung, die zeitliche und spektrale Redundanzen in akustischen Signalen bewältigt. Über diese modalitätsgetriebene Kategorisierung hinaus analysieren wir Methoden weiterhin basierend auf ihren zugrunde liegenden Mechanismen, einschließlich transformationsbasierter, ähnlichkeitsbasierter, aufmerksamkeitsbasierter und abfragebasierter Ansätze. Durch die Bereitstellung eines umfassenden und strukturierten Überblicks zielt diese Übersicht darauf ab, den aktuellen Fortschritt zu konsolidieren, zentrale Herausforderungen zu identifizieren und zukünftige Forschungsrichtungen in diesem sich schnell entwickelnden Bereich zu inspirieren. Wir pflegen zudem ein öffentliches Repository, um die neuesten Fortschritte in diesem vielversprechenden Gebiet kontinuierlich zu verfolgen und zu aktualisieren.

English

Multimodal large language models (MLLMs) have made remarkable strides, largely driven by their ability to process increasingly long and complex contexts, such as high-resolution images, extended video sequences, and lengthy audio input. While this ability significantly enhances MLLM capabilities, it introduces substantial computational challenges, primarily due to the quadratic complexity of self-attention mechanisms with numerous input tokens. To mitigate these bottlenecks, token compression has emerged as an auspicious and critical approach, efficiently reducing the number of tokens during both training and inference. In this paper, we present the first systematic survey and synthesis of the burgeoning field of multimodal long context token compression. Recognizing that effective compression strategies are deeply tied to the unique characteristics and redundancies of each modality, we categorize existing approaches by their primary data focus, enabling researchers to quickly access and learn methods tailored to their specific area of interest: (1) image-centric compression, which addresses spatial redundancy in visual data; (2) video-centric compression, which tackles spatio-temporal redundancy in dynamic sequences; and (3) audio-centric compression, which handles temporal and spectral redundancy in acoustic signals. Beyond this modality-driven categorization, we further dissect methods based on their underlying mechanisms, including transformation-based, similarity-based, attention-based, and query-based approaches. By providing a comprehensive and structured overview, this survey aims to consolidate current progress, identify key challenges, and inspire future research directions in this rapidly evolving domain. We also maintain a public repository to continuously track and update the latest advances in this promising area.

Wenn Token zu viel reden: Eine Übersicht zur multimodalen Langkontext-Token-Kompression bei Bildern, Videos und Audios

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

papers.abstract

Support