Cuando los Tokens Hablan Demasiado: Una Revisión de la Compresión de Tokens de Contexto Largo Multimodal en Imágenes, Videos y Audios
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
July 27, 2025
Autores: Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances notables, impulsados en gran medida por su capacidad para procesar contextos cada vez más largos y complejos, como imágenes de alta resolución, secuencias de video extendidas y entradas de audio prolongadas. Si bien esta capacidad mejora significativamente las capacidades de los MLLMs, introduce desafíos computacionales sustanciales, principalmente debido a la complejidad cuadrática de los mecanismos de autoatención con numerosos tokens de entrada. Para mitigar estos cuellos de botella, la compresión de tokens ha surgido como un enfoque prometedor y crítico, reduciendo eficientemente el número de tokens tanto durante el entrenamiento como en la inferencia. En este artículo, presentamos la primera revisión sistemática y síntesis del campo emergente de la compresión de tokens en contextos largos multimodales. Reconociendo que las estrategias de compresión efectivas están profundamente ligadas a las características y redundancias únicas de cada modalidad, categorizamos los enfoques existentes según su enfoque principal en los datos, permitiendo a los investigadores acceder rápidamente y aprender métodos adaptados a su área de interés específica: (1) compresión centrada en imágenes, que aborda la redundancia espacial en datos visuales; (2) compresión centrada en video, que aborda la redundancia espacio-temporal en secuencias dinámicas; y (3) compresión centrada en audio, que maneja la redundancia temporal y espectral en señales acústicas. Más allá de esta categorización basada en la modalidad, analizamos los métodos según sus mecanismos subyacentes, incluyendo enfoques basados en transformaciones, similitudes, atención y consultas. Al proporcionar una visión general estructurada y exhaustiva, esta revisión tiene como objetivo consolidar el progreso actual, identificar los desafíos clave e inspirar futuras direcciones de investigación en este dominio en rápida evolución. También mantenemos un repositorio público para rastrear y actualizar continuamente los últimos avances en esta área prometedora.
English
Multimodal large language models (MLLMs) have made remarkable strides,
largely driven by their ability to process increasingly long and complex
contexts, such as high-resolution images, extended video sequences, and lengthy
audio input. While this ability significantly enhances MLLM capabilities, it
introduces substantial computational challenges, primarily due to the quadratic
complexity of self-attention mechanisms with numerous input tokens. To mitigate
these bottlenecks, token compression has emerged as an auspicious and critical
approach, efficiently reducing the number of tokens during both training and
inference. In this paper, we present the first systematic survey and synthesis
of the burgeoning field of multimodal long context token compression.
Recognizing that effective compression strategies are deeply tied to the unique
characteristics and redundancies of each modality, we categorize existing
approaches by their primary data focus, enabling researchers to quickly access
and learn methods tailored to their specific area of interest: (1)
image-centric compression, which addresses spatial redundancy in visual data;
(2) video-centric compression, which tackles spatio-temporal redundancy in
dynamic sequences; and (3) audio-centric compression, which handles temporal
and spectral redundancy in acoustic signals. Beyond this modality-driven
categorization, we further dissect methods based on their underlying
mechanisms, including transformation-based, similarity-based, attention-based,
and query-based approaches. By providing a comprehensive and structured
overview, this survey aims to consolidate current progress, identify key
challenges, and inspire future research directions in this rapidly evolving
domain. We also maintain a public repository to continuously track and update
the latest advances in this promising area.