ChatPaper.aiChatPaper

Cuando los Tokens Hablan Demasiado: Una Revisión de la Compresión de Tokens de Contexto Largo Multimodal en Imágenes, Videos y Audios

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

July 27, 2025
Autores: Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances notables, impulsados en gran medida por su capacidad para procesar contextos cada vez más largos y complejos, como imágenes de alta resolución, secuencias de video extendidas y entradas de audio prolongadas. Si bien esta capacidad mejora significativamente las capacidades de los MLLMs, introduce desafíos computacionales sustanciales, principalmente debido a la complejidad cuadrática de los mecanismos de autoatención con numerosos tokens de entrada. Para mitigar estos cuellos de botella, la compresión de tokens ha surgido como un enfoque prometedor y crítico, reduciendo eficientemente el número de tokens tanto durante el entrenamiento como en la inferencia. En este artículo, presentamos la primera revisión sistemática y síntesis del campo emergente de la compresión de tokens en contextos largos multimodales. Reconociendo que las estrategias de compresión efectivas están profundamente ligadas a las características y redundancias únicas de cada modalidad, categorizamos los enfoques existentes según su enfoque principal en los datos, permitiendo a los investigadores acceder rápidamente y aprender métodos adaptados a su área de interés específica: (1) compresión centrada en imágenes, que aborda la redundancia espacial en datos visuales; (2) compresión centrada en video, que aborda la redundancia espacio-temporal en secuencias dinámicas; y (3) compresión centrada en audio, que maneja la redundancia temporal y espectral en señales acústicas. Más allá de esta categorización basada en la modalidad, analizamos los métodos según sus mecanismos subyacentes, incluyendo enfoques basados en transformaciones, similitudes, atención y consultas. Al proporcionar una visión general estructurada y exhaustiva, esta revisión tiene como objetivo consolidar el progreso actual, identificar los desafíos clave e inspirar futuras direcciones de investigación en este dominio en rápida evolución. También mantenemos un repositorio público para rastrear y actualizar continuamente los últimos avances en esta área prometedora.
English
Multimodal large language models (MLLMs) have made remarkable strides, largely driven by their ability to process increasingly long and complex contexts, such as high-resolution images, extended video sequences, and lengthy audio input. While this ability significantly enhances MLLM capabilities, it introduces substantial computational challenges, primarily due to the quadratic complexity of self-attention mechanisms with numerous input tokens. To mitigate these bottlenecks, token compression has emerged as an auspicious and critical approach, efficiently reducing the number of tokens during both training and inference. In this paper, we present the first systematic survey and synthesis of the burgeoning field of multimodal long context token compression. Recognizing that effective compression strategies are deeply tied to the unique characteristics and redundancies of each modality, we categorize existing approaches by their primary data focus, enabling researchers to quickly access and learn methods tailored to their specific area of interest: (1) image-centric compression, which addresses spatial redundancy in visual data; (2) video-centric compression, which tackles spatio-temporal redundancy in dynamic sequences; and (3) audio-centric compression, which handles temporal and spectral redundancy in acoustic signals. Beyond this modality-driven categorization, we further dissect methods based on their underlying mechanisms, including transformation-based, similarity-based, attention-based, and query-based approaches. By providing a comprehensive and structured overview, this survey aims to consolidate current progress, identify key challenges, and inspire future research directions in this rapidly evolving domain. We also maintain a public repository to continuously track and update the latest advances in this promising area.
PDF212July 29, 2025