Reducción de Tokens mediante Optimización de Contextos Locales y Globales para Modelos de Lenguaje Grandes Eficientes en Video

Resumen

Los Modelos de Lenguaje Grandes de Video (VLLMs, por sus siglas en inglés) demuestran una sólida comprensión de video, pero adolecen de ineficiencia debido a tokens visuales redundantes. Los métodos de poda existentes se centran principalmente en la redundancia espacial intra-frame o realizan la poda dentro del LLM con una sobrecarga de capas superficiales, lo que da lugar a una reducción espacio-temporal subóptima y no aprovecha suficientemente la compresibilidad del contexto largo. Todos ellos suelen descartar contextos sutiles pero informativos de los tokens fusionados o podados. En este artículo, proponemos una nueva perspectiva que elabora Anclas de tokens tanto intra-frame como inter-frame para agregar de manera integral los contextos informativos mediante Transporte Óptimo local-global (AOT). Específicamente, primero establecemos anclas de tokens conscientes de lo local y lo global dentro de cada frame bajo la guía de la atención, las cuales luego agregan, mediante transporte óptimo, los contextos informativos de los tokens podados, construyendo así anclas de tokens intra-frame. Luego, partiendo de clips de frames temporales, el primer frame dentro de cada clip se considera como las anclas del frame clave para ensamblar información similar de frames consecutivos a través del transporte óptimo, manteniendo al mismo tiempo tokens distintos para representar la dinámica temporal, lo que conduce a una reducción eficiente de tokens sin necesidad de entrenamiento. Evaluaciones exhaustivas muestran que nuestro AOT propuesto obtiene rendimientos competitivos en varios benchmarks de video corto y largo en los principales VLLMs, logrando una eficiencia computacional sustancial mientras preserva la fidelidad temporal y visual. Página web del proyecto: https://tyroneli.github.io/AOT{AOT}.

English

Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token Anchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global Optimal Transport (AOT). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: https://tyroneli.github.io/AOT{AOT}.

Reducción de Tokens mediante Optimización de Contextos Locales y Globales para Modelos de Lenguaje Grandes Eficientes en Video

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Resumen

Support