Amostragem Swift: Selecionando Surpresas Temporais via Série de Taylor

Resumo

Enquanto a maioria dos quadros em vídeos longos é redundante, as informações críticas residem em surpresas temporais: momentos em que as características visuais reais se desviam de sua evolução prevista. Inspirado pela codificação preditiva do cérebro humano, apresentamos o Swift Sampling, um elegante algoritmo de seleção de quadros livre de treinamento que identifica automaticamente momentos de alta informação em um vídeo. Especificamente, modelamos um vídeo como uma trajetória diferenciável no espaço latente visual e computamos a velocidade e a aceleração de suas características. Em seguida, aplicamos a expansão de Taylor para projetar o caminho esperado dos quadros subsequentes. Quadros que divergem nitidamente dessa variedade prevista são identificados como quadros temporalmente surpreendentes e selecionados para amostragem. Ao contrário de métodos anteriores livres de treinamento que dependem de redes auxiliares ou ajuste de hiperparâmetros específicos do vídeo, o Swift Sampling é extremamente leve, adicionando apenas 0,02x de custo computacional adicional em relação à linha de base, tornando seu custo adicional 30 vezes menor que o das principais referências. Em três conjuntos de dados de resposta a perguntas em vídeos longos e 10 tarefas downstream diferentes, o Swift Sampling supera a amostragem uniforme e as linhas de base anteriores independentes de consulta. Ele é especialmente eficaz para vídeos longos com orçamentos limitados de quadros, melhorando a precisão em até +12,5 pontos percentuais.

English

While most frames in long-form video are redundant, the critical information resides in temporal surprises: moments where the actual visual features deviate from their predicted evolution. Inspired by the human brain's predictive coding, we introduce Swift Sampling, an elegant, training-free frame selection algorithm that automatically identifies high-information moments in a video. Specifically, we model a video as a differentiable trajectory in the visual latent space and compute the velocity and acceleration of its features. Then, we apply Taylor expansion to project the expected path of subsequent frames. Frames that diverge sharply from this predicted manifold are identified as temporally surprising frames and selected for sampling. Unlike prior training-free methods that rely on auxiliary networks or video-specific hyperparameter tuning, Swift Sampling is incredibly lightweight, adding only 0.02x additional computational cost over baseline making it 30x cheaper overhead than leading baselines. Across three long-video question answering benchmarks and 10 different downstream tasks, Swift Sampling outperforms uniform sampling and prior query-agnostic baselines. It is especially powerful for long videos with limited frame budgets improving accuracy by up to +12.5 points.