Быстрое сэмплирование: отбор временных сюрпризов с помощью рядов Тейлора

Аннотация

Хотя большинство кадров длительного видео избыточно, ключевая информация сосредоточена в темпоральных сюрпризах: моментах, где фактические визуальные признаки отклоняются от их предсказанной эволюции. Вдохновляясь предсказательным кодированием человеческого мозга, мы представляем Swift Sampling — элегантный алгоритм выбора кадров, не требующий обучения, который автоматически идентифицирует моменты с высокой информативностью в видео. В частности, мы моделируем видео как дифференцируемую траекторию в латентном визуальном пространстве и вычисляем скорость и ускорение его признаков. Затем с помощью разложения Тейлора прогнозируется ожидаемый путь последующих кадров. Кадры, резко отклоняющиеся от этого предсказанного многообразия, идентифицируются как темпорально сюрпризные и отбираются для выборки. В отличие от предыдущих методов без обучения, полагающихся на вспомогательные сети или подбор гиперпараметров для конкретного видео, Swift Sampling чрезвычайно легковесен, добавляя лишь 0,02× вычислительных затрат к базовому процессору, что делает его в 30 раз дешевле по накладным расходам, чем ведущие базовые подходы. На трёх эталонных наборах данных для ответов на вопросы по длинным видео и 10 различных нисходящих задачах Swift Sampling превосходит равномерную выборку и предшествующие базовые методы, независимые от запроса. Особенно эффективен он для длинных видео с ограниченным бюджетом кадров, повышая точность до +12,5 баллов.

English

While most frames in long-form video are redundant, the critical information resides in temporal surprises: moments where the actual visual features deviate from their predicted evolution. Inspired by the human brain's predictive coding, we introduce Swift Sampling, an elegant, training-free frame selection algorithm that automatically identifies high-information moments in a video. Specifically, we model a video as a differentiable trajectory in the visual latent space and compute the velocity and acceleration of its features. Then, we apply Taylor expansion to project the expected path of subsequent frames. Frames that diverge sharply from this predicted manifold are identified as temporally surprising frames and selected for sampling. Unlike prior training-free methods that rely on auxiliary networks or video-specific hyperparameter tuning, Swift Sampling is incredibly lightweight, adding only 0.02x additional computational cost over baseline making it 30x cheaper overhead than leading baselines. Across three long-video question answering benchmarks and 10 different downstream tasks, Swift Sampling outperforms uniform sampling and prior query-agnostic baselines. It is especially powerful for long videos with limited frame budgets improving accuracy by up to +12.5 points.