PEEK: Auswahl essentieller Frames durch effiziente Wissensdestillation

Zusammenfassung

Video-Sprachmodelle können nur eine begrenzte Anzahl von Frames verarbeiten, weshalb die Frame-Auswahl einen entscheidenden Engpass für eine effiziente Videobeschriftung darstellt. Die meisten Beschriftungspipelines verlassen sich noch immer auf gleichmäßige Abtastung, die zwar rechengünstig, aber gegenüber dem visuellen Inhalt blind ist. Adaptive Frame-Abtastung hat sich in jüngster Zeit als vielversprechender Ansatz zur Auswahl der informativsten Frames aus einem Video erwiesen; bestehende Methoden sind jedoch rechenintensiv. Wir stellen PEEK vor, eine effiziente dynamische Frame-Abtastmethode, die beschriftungsbedingte Frame-Relevanzränge aus einem stärkeren Lehrermodell in ein leichtgewichtiges zeitliches Modell destilliert, das ausschließlich auf visuellen Inhalten operiert. Insgesamt stellen wir fest, dass unsere Methode auf ActivityNet Captions und MSR-VTT in allen bewerteten nachgelagerten visuellen Sprachmodellen den aktuellen Stand der Technik übertrifft, insbesondere wenn nur ein oder zwei Frames zur Beschriftung ausgewählt werden, wobei sie für die meisten Frame-Budgets den besten CIDEr-Wert erzielt. Auf ActivityNet Captions ist PEEK besonders stark und gewinnt 14 von 16 Konfigurationen. Die Zero-Shot-Evaluierung auf MSR-VTT zeigt, dass sich unser Modell bei niedrigen Frame-Budgets am besten überträgt, während die Ergebnisse bei vier und acht Frames gemischter ausfallen, da zeitliche Abdeckung und visuelle Vielfalt zunehmend in Konkurrenz treten. Im Vergleich zu aktuellen adaptiven Basislinien ist PEEK sowohl im Niedrigbudget-Bereich genauer als auch effizienter: Es erhöht die Beschriftungszeit nur um 5,2 %, verglichen mit 65,4 % für CSTA und 211,9 % für MaxInfo. Wir veröffentlichen unseren Code und den vorab trainierten Checkpoint unter https://github.com/momentslab/peek.

English

Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only 5.2% to the captioning time, compared with 65.4% for CSTA and 211.9% for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.