HoliTom: Fusión Holística de Tokens para Modelos de Lenguaje de Gran Escala en Vídeo Rápido

Resumen

Los modelos de lenguaje de gran escala para video (video LLMs) destacan en la comprensión de video, pero enfrentan una ineficiencia computacional significativa debido a la redundancia de tokens de video. Los métodos existentes de poda de tokens ofrecen soluciones. Sin embargo, los enfoques que operan dentro del LLM (poda interna del LLM), como FastV, incurren en un sobrecosto computacional intrínseco en las capas superficiales. En contraste, los métodos que realizan la poda de tokens antes del LLM (poda externa del LLM) abordan principalmente la redundancia espacial dentro de fotogramas individuales o ventanas temporales limitadas, descuidando las cruciales dinámicas temporales globales y las correlaciones a lo largo de secuencias de video más largas. Esto conduce a una reducción espacio-temporal subóptima y no aprovecha completamente la compresibilidad del video. Es crucial destacar que el potencial sinérgico y la influencia mutua de combinar estas estrategias permanecen inexplorados. Para reducir aún más la redundancia, presentamos HoliTom, un novedoso marco de fusión holística de tokens sin necesidad de entrenamiento. HoliTom emplea la poda externa del LLM mediante segmentación temporal consciente de la redundancia global, seguida de una fusión espacio-temporal para reducir los tokens visuales en más del 90%, aliviando significativamente la carga computacional del LLM. Complementando esto, introducimos un enfoque robusto de fusión interna de tokens basado en la similitud, diseñado para un rendimiento superior y compatibilidad con la poda externa del LLM. Las evaluaciones demuestran el prometedor equilibrio eficiencia-rendimiento de nuestro método en LLaVA-OneVision-7B, reduciendo los costos computacionales al 6.9% de los FLOPs mientras se mantiene el 99.1% del rendimiento original. Además, logramos una reducción de 2.28x en el Tiempo-Para-Primer-Token (TTFT) y una aceleración de 1.32x en el rendimiento de decodificación, destacando los beneficios prácticos de nuestro enfoque integrado de poda para la inferencia eficiente de video LLMs.

English

Video large language models (video LLMs) excel at video comprehension but face significant computational inefficiency due to redundant video tokens. Existing token pruning methods offer solutions. However, approaches operating within the LLM (inner-LLM pruning), such as FastV, incur intrinsic computational overhead in shallow layers. In contrast, methods performing token pruning before the LLM (outer-LLM pruning) primarily address spatial redundancy within individual frames or limited temporal windows, neglecting the crucial global temporal dynamics and correlations across longer video sequences. This leads to sub-optimal spatio-temporal reduction and does not leverage video compressibility fully. Crucially, the synergistic potential and mutual influence of combining these strategies remain unexplored. To further reduce redundancy, we introduce HoliTom, a novel training-free holistic token merging framework. HoliTom employs outer-LLM pruning through global redundancy-aware temporal segmentation, followed by spatial-temporal merging to reduce visual tokens by over 90%, significantly alleviating the LLM's computational burden. Complementing this, we introduce a robust inner-LLM token similarity-based merging approach, designed for superior performance and compatibility with outer-LLM pruning. Evaluations demonstrate our method's promising efficiency-performance trade-off on LLaVA-OneVision-7B, reducing computational costs to 6.9% of FLOPs while maintaining 99.1% of the original performance. Furthermore, we achieve a 2.28x reduction in Time-To-First-Token (TTFT) and a 1.32x acceleration in decoding throughput, highlighting the practical benefits of our integrated pruning approach for efficient video LLMs inference.

HoliTom: Fusión Holística de Tokens para Modelos de Lenguaje de Gran Escala en Vídeo Rápido

HoliTom: Holistic Token Merging for Fast Video Large Language Models

Resumen

Support