Swift Sampling: Auswahl zeitlicher Überraschungen mittels Taylor-Reihe

Zusammenfassung

Während die meisten Frames in langformatigen Videos redundant sind, liegt die entscheidende Information in temporalen Überraschungen: Momenten, in denen die tatsächlichen visuellen Merkmale von ihrer vorhergesagten Entwicklung abweichen. Inspiriert von der prädiktiven Kodierung des menschlichen Gehirns stellen wir Swift Sampling vor, einen eleganten, trainingsfreien Frame-Auswahlalgorithmus, der automatisch Momente mit hohem Informationsgehalt in einem Video identifiziert. Konkret modellieren wir ein Video als differenzierbare Trajektorie im visuellen latenten Raum und berechnen die Geschwindigkeit und Beschleunigung seiner Merkmale. Anschließend wenden wir die Taylor-Entwicklung an, um den erwarteten Verlauf nachfolgender Frames zu projizieren. Frames, die stark von dieser vorhergesagten Mannigfaltigkeit abweichen, werden als temporal überraschende Frames identifiziert und zur Stichprobenentnahme ausgewählt. Im Gegensatz zu früheren trainingsfreien Methoden, die auf Hilfsnetzwerken oder videospezifischer Hyperparameter-Abstimmung beruhen, ist Swift Sampling äußerst leichtgewichtig und verursacht nur einen zusätzlichen Rechenaufwand von 0,02x gegenüber der Basismethode, was einer 30-mal geringeren Kostensteigerung im Vergleich zu führenden Basislinien entspricht. In drei Benchmarks für Langvideo-Frage-Antwort-Aufgaben und 10 verschiedenen nachgelagerten Aufgaben übertrifft Swift Sampling sowohl gleichmäßige Stichprobenentnahme als auch frühere abfrageagnostische Basislinien. Besonders wirkungsvoll ist es bei langen Videos mit begrenztem Frame-Budget, wo es die Genauigkeit um bis zu +12,5 Prozentpunkte verbessert.

English

While most frames in long-form video are redundant, the critical information resides in temporal surprises: moments where the actual visual features deviate from their predicted evolution. Inspired by the human brain's predictive coding, we introduce Swift Sampling, an elegant, training-free frame selection algorithm that automatically identifies high-information moments in a video. Specifically, we model a video as a differentiable trajectory in the visual latent space and compute the velocity and acceleration of its features. Then, we apply Taylor expansion to project the expected path of subsequent frames. Frames that diverge sharply from this predicted manifold are identified as temporally surprising frames and selected for sampling. Unlike prior training-free methods that rely on auxiliary networks or video-specific hyperparameter tuning, Swift Sampling is incredibly lightweight, adding only 0.02x additional computational cost over baseline making it 30x cheaper overhead than leading baselines. Across three long-video question answering benchmarks and 10 different downstream tasks, Swift Sampling outperforms uniform sampling and prior query-agnostic baselines. It is especially powerful for long videos with limited frame budgets improving accuracy by up to +12.5 points.