Унифицированная оценка пространственно-временных токенов для эффективных видео-VLM

Аннотация

Отсев токенов (token pruning) является ключевым методом повышения вычислительной эффективности моделей «визуальный язык» (vision-language models, VLMs), особенно для задач, связанных с видео, где временная избыточность широко распространена. Существующие подходы обычно отбирают токены либо (1) исключительно внутри визуального трансформера (ViT) для унимодальных задач восприятия, таких как распознавание действий и сегментация объектов, без адаптации к последующим задачам «визуальный язык»; либо (2) только внутри большой языковой модели (LLM), оставляя выход ViT неизменным, что часто требует сложных механизмов отбора токенов, обусловленных текстом. В данной статье мы представляем Пространственно-временное оценивание токенов (Spatio-Temporal Token Scoring, STTS) — простой и легковесный модуль, который отбирает визуальные токены как в ViT, так и в LLM без текстовых условий или слияния токенов и полностью совместим с сквозным обучением. Обучаясь оценивать токены во времени с помощью вспомогательной функции потерь и в пространстве с помощью градиентов от последующей LLM, а также благодаря нашему эффективному алгоритму упаковки, STTS отсеивает 50% визуальных токенов по всей архитектуре, что приводит к повышению эффективности на 62% как при обучении, так и при выводе, при падении среднего показателя производительности всего на 0,7% по 13 задачам вопросно-ответной системы для коротких и длинных видео. Выигрыш в эффективности возрастает с увеличением количества кадров, выбираемых из видео. Применение масштабирования на этапе тестирования для QA по длинным видео дополнительно дает прирост производительности на 0,5–1% по сравнению с базовым уровнем. В целом, STTS представляет собой новую, простую, но эффективную методику унифицированного отбора визуальных токенов на уровне всей архитектуры.

English

Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.

Унифицированная оценка пространственно-временных токенов для эффективных видео-VLM

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Аннотация

Support