PEEK: Selecionando quadros essenciais via destilação eficiente de conhecimento

Resumo

Modelos de vídeo-linguagem conseguem processar apenas um número limitado de quadros, tornando a seleção de quadros um gargalo fundamental para a legendagem eficiente de vídeos. A maioria dos pipelines de legendagem ainda depende de amostragem uniforme, que é computacionalmente barata, mas insensível ao conteúdo visual. A amostragem adaptativa de quadros surgiu recentemente como uma abordagem promissora para selecionar os quadros mais informativos de um vídeo; no entanto, os métodos existentes continuam computacionalmente caros. Apresentamos o PEEK, um método eficiente de amostragem dinâmica de quadros que destila ranqueamentos de relevância de quadros condicionados a legendas de um modelo professor mais forte em um modelo temporal leve que opera apenas com conteúdo visual. Constatamos que, de modo geral, nos conjuntos ActivityNet Captions e MSR-VTT, nosso método supera os métodos de última geração em todos os modelos de visão-linguagem downstream avaliados, especialmente quando apenas um ou dois quadros são selecionados para legendagem, obtendo o melhor CIDEr na maioria dos orçamentos de quadros. No ActivityNet Captions, o PEEK é particularmente forte, vencendo em 14 das 16 configurações. A avaliação zero-shot no MSR-VTT mostra que nosso modelo transfere melhor em orçamentos baixos de quadros, enquanto os resultados com quatro e oito quadros são mais mistos, à medida que a cobertura temporal e a diversidade visual se tornam cada vez mais competitivas. Comparado com linhas de base adaptativas recentes, o PEEK é tanto mais preciso no regime de baixo orçamento quanto mais eficiente: ele adiciona apenas 5,2% ao tempo de legendagem, contra 65,4% para o CSTA e 211,9% para o MaxInfo. Disponibilizamos nosso código e checkpoint pré-treinado em https://github.com/momentslab/peek.

English

Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only 5.2% to the captioning time, compared with 65.4% for CSTA and 211.9% for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.