HoliTom: 고속 비디오 대형 언어 모델을 위한 통합 토큰 병합
HoliTom: Holistic Token Merging for Fast Video Large Language Models
May 27, 2025
저자: Kele Shao, Keda Tao, Can Qin, Haoxuan You, Yang Sui, Huan Wang
cs.AI
초록
비디오 대형 언어 모델(Video LLMs)은 비디오 이해에 뛰어나지만, 중복된 비디오 토큰으로 인해 상당한 계산 비효율성을 겪습니다. 기존의 토큰 프루닝(pruning) 방법들이 해결책을 제시하고 있지만, FastV와 같은 LLM 내부에서 작동하는 방식(내부-LLM 프루닝)은 얕은 층에서 본질적인 계산 오버헤드를 발생시킵니다. 반면, LLM 이전에 토큰 프루닝을 수행하는 방식(외부-LLM 프루닝)은 주로 개별 프레임 내의 공간적 중복성이나 제한된 시간 창을 다루며, 더 긴 비디오 시퀀스에 걸친 중요한 전역적 시간적 동역학과 상관관계를 간과합니다. 이로 인해 최적이 아닌 시공간적 축소가 이루어지고 비디오 압축 가능성을 완전히 활용하지 못합니다. 특히, 이러한 전략들을 결합했을 때의 시너지 효과와 상호 영향은 아직 탐구되지 않았습니다. 중복성을 더욱 줄이기 위해, 우리는 훈련이 필요 없는 새로운 통합적 토큰 병합 프레임워크인 HoliTom을 소개합니다. HoliTom은 전역적 중복성 인식 시간 분할을 통해 외부-LLM 프루닝을 수행한 후, 시공간적 병합을 통해 시각적 토큰을 90% 이상 줄여 LLM의 계산 부담을 크게 완화합니다. 이를 보완하기 위해, 우리는 외부-LLM 프루닝과의 우수한 성능 및 호환성을 위해 설계된 강력한 내부-LLM 토큰 유사성 기반 병합 접근법을 도입했습니다. 평가 결과, 우리의 방법은 LLaVA-OneVision-7B에서 FLOPs의 6.9%로 계산 비용을 줄이면서도 원래 성능의 99.1%를 유지하는 유망한 효율성-성능 트레이드오프를 보여줍니다. 또한, Time-To-First-Token(TTFT)을 2.28배 줄이고 디코딩 처리량을 1.32배 가속화하여, 효율적인 비디오 LLM 추론을 위한 통합 프루닝 접근법의 실질적인 이점을 입증했습니다.
English
Video large language models (video LLMs) excel at video comprehension but
face significant computational inefficiency due to redundant video tokens.
Existing token pruning methods offer solutions. However, approaches operating
within the LLM (inner-LLM pruning), such as FastV, incur intrinsic
computational overhead in shallow layers. In contrast, methods performing token
pruning before the LLM (outer-LLM pruning) primarily address spatial redundancy
within individual frames or limited temporal windows, neglecting the crucial
global temporal dynamics and correlations across longer video sequences. This
leads to sub-optimal spatio-temporal reduction and does not leverage video
compressibility fully. Crucially, the synergistic potential and mutual
influence of combining these strategies remain unexplored. To further reduce
redundancy, we introduce HoliTom, a novel training-free holistic token merging
framework. HoliTom employs outer-LLM pruning through global redundancy-aware
temporal segmentation, followed by spatial-temporal merging to reduce visual
tokens by over 90%, significantly alleviating the LLM's computational burden.
Complementing this, we introduce a robust inner-LLM token similarity-based
merging approach, designed for superior performance and compatibility with
outer-LLM pruning. Evaluations demonstrate our method's promising
efficiency-performance trade-off on LLaVA-OneVision-7B, reducing computational
costs to 6.9% of FLOPs while maintaining 99.1% of the original performance.
Furthermore, we achieve a 2.28x reduction in Time-To-First-Token (TTFT) and a
1.32x acceleration in decoding throughput, highlighting the practical benefits
of our integrated pruning approach for efficient video LLMs inference.Summary
AI-Generated Summary