HoliTom: Fusión Holística de Tokens para Modelos de Lenguaje de Gran Escala en Vídeo Rápido
HoliTom: Holistic Token Merging for Fast Video Large Language Models
May 27, 2025
Autores: Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang
cs.AI
Resumen
Los modelos de lenguaje de gran escala para video (video LLMs) destacan en la comprensión de video, pero enfrentan una ineficiencia computacional significativa debido a la redundancia de tokens de video. Los métodos existentes de poda de tokens ofrecen soluciones. Sin embargo, los enfoques que operan dentro del LLM (poda interna del LLM), como FastV, incurren en un sobrecosto computacional intrínseco en las capas superficiales. En contraste, los métodos que realizan la poda de tokens antes del LLM (poda externa del LLM) abordan principalmente la redundancia espacial dentro de fotogramas individuales o ventanas temporales limitadas, descuidando las cruciales dinámicas temporales globales y las correlaciones a lo largo de secuencias de video más largas. Esto conduce a una reducción espacio-temporal subóptima y no aprovecha completamente la compresibilidad del video. Es crucial destacar que el potencial sinérgico y la influencia mutua de combinar estas estrategias permanecen inexplorados. Para reducir aún más la redundancia, presentamos HoliTom, un novedoso marco de fusión holística de tokens sin necesidad de entrenamiento. HoliTom emplea la poda externa del LLM mediante segmentación temporal consciente de la redundancia global, seguida de una fusión espacio-temporal para reducir los tokens visuales en más del 90%, aliviando significativamente la carga computacional del LLM. Complementando esto, introducimos un enfoque robusto de fusión interna de tokens basado en la similitud, diseñado para un rendimiento superior y compatibilidad con la poda externa del LLM. Las evaluaciones demuestran el prometedor equilibrio eficiencia-rendimiento de nuestro método en LLaVA-OneVision-7B, reduciendo los costos computacionales al 6.9% de los FLOPs mientras se mantiene el 99.1% del rendimiento original. Además, logramos una reducción de 2.28x en el Tiempo-Para-Primer-Token (TTFT) y una aceleración de 1.32x en el rendimiento de decodificación, destacando los beneficios prácticos de nuestro enfoque integrado de poda para la inferencia eficiente de video LLMs.
English
Video large language models (video LLMs) excel at video comprehension but
face significant computational inefficiency due to redundant video tokens.
Existing token pruning methods offer solutions. However, approaches operating
within the LLM (inner-LLM pruning), such as FastV, incur intrinsic
computational overhead in shallow layers. In contrast, methods performing token
pruning before the LLM (outer-LLM pruning) primarily address spatial redundancy
within individual frames or limited temporal windows, neglecting the crucial
global temporal dynamics and correlations across longer video sequences. This
leads to sub-optimal spatio-temporal reduction and does not leverage video
compressibility fully. Crucially, the synergistic potential and mutual
influence of combining these strategies remain unexplored. To further reduce
redundancy, we introduce HoliTom, a novel training-free holistic token merging
framework. HoliTom employs outer-LLM pruning through global redundancy-aware
temporal segmentation, followed by spatial-temporal merging to reduce visual
tokens by over 90%, significantly alleviating the LLM's computational burden.
Complementing this, we introduce a robust inner-LLM token similarity-based
merging approach, designed for superior performance and compatibility with
outer-LLM pruning. Evaluations demonstrate our method's promising
efficiency-performance trade-off on LLaVA-OneVision-7B, reducing computational
costs to 6.9% of FLOPs while maintaining 99.1% of the original performance.
Furthermore, we achieve a 2.28x reduction in Time-To-First-Token (TTFT) and a
1.32x acceleration in decoding throughput, highlighting the practical benefits
of our integrated pruning approach for efficient video LLMs inference.Summary
AI-Generated Summary