PEEK: Essentiële frames selecteren via efficiënte kennisdistillatie

Samenvatting

Videotaalmodellen kunnen slechts een beperkt aantal frames verwerken, waardoor frameselectie een belangrijke bottleneck vormt voor efficiënte videobijschrijving. De meeste bijschrijvingspijplijnen vertrouwen nog steeds op uniforme sampling, die rekenkundig goedkoop is maar niet afhankelijk van visuele inhoud. Adaptieve frameselectie is recentelijk naar voren gekomen als een veelbelovende benadering om de meest informatieve frames uit een video te selecteren; bestaande methoden blijven echter rekenkundig duur. Wij introduceren PEEK, een efficiënte dynamische frameselectiemethode die aan bijschriften gerelateerde framerelevantieranglijsten destilleert van een sterker leraarmodel naar een lichtgewicht temporeel model dat alleen op visuele inhoud werkt. We constateren dat onze methode in het algemeen, op ActivityNet Captions en MSR-VTT, beter presteert dan state-of-the-art methoden in alle geëvalueerde downstream visie-taalmethoden, vooral wanneer slechts één of twee frames worden geselecteerd voor bijschrijving, waarbij de beste CIDEr wordt behaald voor de meeste framebudgetten. Op ActivityNet Captions is PEEK bijzonder sterk, met winst in 14 van de 16 configuraties. Zero-shot evaluatie op MSR-VTT toont aan dat ons model het beste presteert bij lage framebudgetten, terwijl de resultaten bij vier en acht frames gemengder zijn naarmate temporele dekking en visuele diversiteit steeds competitiever worden. Vergeleken met recente adaptieve baselines is PEEK zowel nauwkeuriger in het lagebudgetregime als efficiënter: het voegt slechts 5,2% toe aan de bijschrijvingstijd, vergeleken met 65,4% voor CSTA en 211,9% voor MaxInfo. We geven onze code en voorgetrainde checkpoint vrij op https://github.com/momentslab/peek.

English

Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only 5.2% to the captioning time, compared with 65.4% for CSTA and 211.9% for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.