PEEK: Seleccionando fotogramas esenciales mediante destilación eficiente de conocimiento

Resumen

Los modelos de video-lenguaje solo pueden procesar un número limitado de fotogramas, lo que convierte la selección de fotogramas en un cuello de botella clave para la generación eficiente de descripciones de video. La mayoría de los pipelines de generación de descripciones aún dependen del muestreo uniforme, que es computacionalmente barato pero agnóstico al contenido visual. Recientemente, el muestreo adaptativo de fotogramas ha surgido como un enfoque prometedor para seleccionar los fotogramas más informativos de un video; sin embargo, los métodos existentes siguen siendo costosos computacionalmente. Presentamos PEEK, un método eficiente de muestreo dinámico de fotogramas que destila clasificaciones de relevancia de fotogramas condicionadas por descripciones desde un modelo profesor más fuerte hacia un modelo temporal ligero que opera únicamente sobre el contenido visual. Encontramos que, en general, en ActivityNet Captions y MSR-VTT, nuestro método supera a los métodos de vanguardia en todos los modelos de visión y lenguaje posteriores evaluados, especialmente cuando se seleccionan solo uno o dos fotogramas para la generación de descripciones, obteniendo el mejor CIDEr para la mayoría de los presupuestos de fotogramas. En ActivityNet Captions, PEEK es particularmente sólido, ganando 14 de 16 configuraciones. La evaluación zero-shot en MSR-VTT muestra que nuestro modelo se transfiere mejor con presupuestos bajos de fotogramas, mientras que los resultados con cuatro y ocho fotogramas son más mixtos, ya que la cobertura temporal y la diversidad visual se vuelven cada vez más competitivas. En comparación con líneas base adaptativas recientes, PEEK es tanto más preciso en el régimen de bajo presupuesto como más eficiente: agrega solo un 5.2% al tiempo de generación de descripciones, frente al 65.4% de CSTA y el 211.9% de MaxInfo. Publicamos nuestro código y punto de control preentrenado en https://github.com/momentslab/peek.

English

Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only 5.2% to the captioning time, compared with 65.4% for CSTA and 211.9% for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.