효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
March 18, 2026
저자: Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee
cs.AI
초록
토큰 프루닝은 시각-언어 모델(VLM)의 계산 효율성을 향상시키는 데 필수적이며, 특히 시간적 중복성이 높은 비디오 기반 작업에서 중요합니다. 기존 접근법들은 일반적으로 (1) 행동 인식 및 객체 분할과 같은 단일 모달 인식 작업만을 위해 비전 트랜스포머(ViT) 내에서만 토큰을 제거하거나 다운스트림 시각-언어 작업에 적응하지 않거나, (2) ViT 출력은 그대로 둔 채 LLM 내에서만 토큰을 제거하는데, 이는 종종 복잡한 텍스트 조건 기반 토큰 선택 메커니즘을 필요로 했습니다. 본 논문에서는 텍스트 조건이나 토큰 병합 없이 ViT와 LLM 양측에 걸쳐 시각 토큰을 제거하며, 엔드투엔드 학습과 완전히 호환되는 간단하고 경량화된 모듈인 Spatio-Temporal Token Scoring(STTS)을 소개합니다. 보조 손실을 통한 시간적 스코어링과 LLM 다운스트림 그래디언트를 통한 공간적 스코어링 방법을 학습하고, 효율적인 패킹 알고리즘의 도움으로 STTS는 전체 아키텍처에서 시각 토큰의 50%를 제거하여 학습 및 추론 시 효율을 62% 향상시키면서도 13개의 장단기 비디오 질의응답 작업에서 평균 성능 하락을 0.7%에 불과하게 유지합니다. 비디오당 더 많은 프레임을 샘플링할수록 효율 향상 폭은 증가합니다. 장기 비디오 질의응답에 테스트 시간 스케일링을 적용하면 기준 모델 대비 0.5-1%의 추가 성능 향상을 얻을 수 있습니다. 전반적으로 STTS는 아키텍처 전반에 걸친 통합된 시각 토큰 프루닝을 위한 새롭고 간단하지만 효과적인 기술을 제시합니다.
English
Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.