Muestreo Rápido: Seleccionando Sorpresas Temporales mediante Series de Taylor

Resumen

Mientras que la mayoría de los fotogramas en vídeos de larga duración son redundantes, la información crítica reside en las sorpresas temporales: momentos en los que las características visuales reales se desvían de su evolución prevista. Inspirándonos en la codificación predictiva del cerebro humano, presentamos Swift Sampling, un elegante algoritmo de selección de fotogramas que no requiere entrenamiento y que identifica automáticamente los momentos de alta información en un vídeo. Específicamente, modelamos un vídeo como una trayectoria diferenciable en el espacio latente visual y calculamos la velocidad y aceleración de sus características. Luego, aplicamos la expansión de Taylor para proyectar la trayectoria esperada de los fotogramas subsiguientes. Los fotogramas que se desvían marcadamente de esta variedad predicha se identifican como fotogramas temporalmente sorprendentes y se seleccionan para el muestreo. A diferencia de los métodos previos sin entrenamiento que dependen de redes auxiliares o del ajuste de hiperparámetros específicos del vídeo, Swift Sampling es extremadamente ligero, añadiendo solo un costo computacional adicional de 0.02x sobre la línea base, lo que lo hace 30 veces más barato en términos de gastos generales que las líneas base líderes. En tres conjuntos de referencia de respuesta a preguntas sobre vídeos largos y 10 tareas posteriores diferentes, Swift Sampling supera al muestreo uniforme y a las líneas base previas independientes de la consulta. Es especialmente potente para vídeos largos con presupuestos de fotogramas limitados, mejorando la precisión hasta en +12.5 puntos.

English

While most frames in long-form video are redundant, the critical information resides in temporal surprises: moments where the actual visual features deviate from their predicted evolution. Inspired by the human brain's predictive coding, we introduce Swift Sampling, an elegant, training-free frame selection algorithm that automatically identifies high-information moments in a video. Specifically, we model a video as a differentiable trajectory in the visual latent space and compute the velocity and acceleration of its features. Then, we apply Taylor expansion to project the expected path of subsequent frames. Frames that diverge sharply from this predicted manifold are identified as temporally surprising frames and selected for sampling. Unlike prior training-free methods that rely on auxiliary networks or video-specific hyperparameter tuning, Swift Sampling is incredibly lightweight, adding only 0.02x additional computational cost over baseline making it 30x cheaper overhead than leading baselines. Across three long-video question answering benchmarks and 10 different downstream tasks, Swift Sampling outperforms uniform sampling and prior query-agnostic baselines. It is especially powerful for long videos with limited frame budgets improving accuracy by up to +12.5 points.