PEEK : Sélection de trames essentielles via une distillation efficace des connaissances

Résumé

Les modèles vidéo-langage ne peuvent traiter qu'un nombre limité d'images, ce qui fait de la sélection d'images un goulot d'étranglement clé pour un sous-titrage vidéo efficace. La plupart des pipelines de sous-titrage reposent encore sur un échantillonnage uniforme, qui est peu coûteux en calcul mais indifférent au contenu visuel. L'échantillonnage adaptatif d'images est récemment apparu comme une approche prometteuse pour sélectionner les images les plus informatives d'une vidéo ; cependant, les méthodes existantes restent coûteuses en termes de calcul. Nous présentons PEEK, une méthode efficace d'échantillonnage dynamique d'images qui distille des classements de pertinence des images conditionnés par le sous-titre, issus d'un modèle enseignant plus fort, dans un modèle temporel léger qui opère uniquement sur le contenu visuel. Nous constatons que, globalement, sur ActivityNet Captions et MSR-VTT, notre méthode surpasse les méthodes de pointe sur tous les modèles de vision-langage en aval évalués, en particulier lorsqu'une ou deux images seulement sont sélectionnées pour le sous-titrage, obtenant le meilleur CIDEr pour la plupart des budgets d'images. Sur ActivityNet Captions, PEEK est particulièrement performant, remportant 14 configurations sur 16. L'évaluation zero-shot sur MSR-VTT montre que notre modèle se transfère le mieux pour les budgets d'images faibles, tandis que les résultats à quatre et huit images sont plus mitigés car la couverture temporelle et la diversité visuelle deviennent de plus en plus concurrentielles. Comparé aux récentes références adaptatives, PEEK est à la fois plus précis dans le régime à faible budget et plus efficace : il n'ajoute que 5,2 % au temps de sous-titrage, contre 65,4 % pour CSTA et 211,9 % pour MaxInfo. Nous publions notre code et notre checkpoint pré-entraîné à l'adresse https://github.com/momentslab/peek.

English

Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only 5.2% to the captioning time, compared with 65.4% for CSTA and 211.9% for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.