Échantillonnage Swift : Sélection des surprises temporelles via les séries de Taylor

Résumé

Alors que la plupart des plans dans les vidéos longues sont redondants, l'information critique réside dans les surprises temporelles : des moments où les caractéristiques visuelles réelles s'écartent de leur évolution prédite. Inspiré par le codage prédictif du cerveau humain, nous introduisons Swift Sampling, un algorithme de sélection de plans élégant et sans apprentissage, qui identifie automatiquement les moments de forte information dans une vidéo. Plus précisément, nous modélisons une vidéo comme une trajectoire différentiable dans l'espace latent visuel et calculons la vitesse et l'accélération de ses caractéristiques. Ensuite, nous appliquons un développement de Taylor pour projeter le chemin attendu des plans suivants. Les plans qui divergent nettement de cette variété prédite sont identifiés comme des plans temporellement surprenants et sélectionnés pour l'échantillonnage. Contrairement aux méthodes antérieures sans apprentissage qui reposent sur des réseaux auxiliaires ou un réglage d'hyperparamètres spécifique à la vidéo, Swift Sampling est extrêmement léger, n'ajoutant qu'un surcoût de calcul de 0,02x par rapport à la référence, soit un surcoût 30 fois inférieur à celui des principales approches concurrentes. Sur trois références de questions-réponses pour vidéos longues et 10 tâches aval différentes, Swift Sampling surpasse l'échantillonnage uniforme et les références antérieures indépendantes des requêtes. Il est particulièrement efficace pour les vidéos longues avec des budgets de plans limités, améliorant la précision jusqu'à +12,5 points.

English

While most frames in long-form video are redundant, the critical information resides in temporal surprises: moments where the actual visual features deviate from their predicted evolution. Inspired by the human brain's predictive coding, we introduce Swift Sampling, an elegant, training-free frame selection algorithm that automatically identifies high-information moments in a video. Specifically, we model a video as a differentiable trajectory in the visual latent space and compute the velocity and acceleration of its features. Then, we apply Taylor expansion to project the expected path of subsequent frames. Frames that diverge sharply from this predicted manifold are identified as temporally surprising frames and selected for sampling. Unlike prior training-free methods that rely on auxiliary networks or video-specific hyperparameter tuning, Swift Sampling is incredibly lightweight, adding only 0.02x additional computational cost over baseline making it 30x cheaper overhead than leading baselines. Across three long-video question answering benchmarks and 10 different downstream tasks, Swift Sampling outperforms uniform sampling and prior query-agnostic baselines. It is especially powerful for long videos with limited frame budgets improving accuracy by up to +12.5 points.