PEEK: Выбор ключевых кадров посредством эффективной дистилляции знаний

Аннотация

Видео-языковые модели могут обрабатывать лишь ограниченное количество кадров, что делает выбор кадров ключевым узким местом для эффективного видеосубтитрирования. Большинство пайплайнов субтитрирования по-прежнему опираются на равномерную дискретизацию, которая является вычислительно дешёвой, но не учитывает визуальное содержание. В последнее время адаптивная дискретизация кадров стала перспективным подходом для выбора наиболее информативных кадров из видео; однако существующие методы остаются вычислительно затратными. Мы представляем PEEK — эффективный метод динамической дискретизации кадров, который дистиллирует ранжирование релевантности кадров по отношению к подписи от более сильной модели-учителя в лёгкую темпоральную модель, работающую только с визуальным содержанием. Мы обнаружили, что в целом на наборах данных ActivityNet Captions и MSR-VTT наш метод превосходит современные методы во всех оцениваемых нижележащих видео-языковых моделях, особенно когда для субтитрирования выбирается всего один или два кадра, достигая наилучшего значения CIDEr для большинства бюджетов кадров. На ActivityNet Captions PEEK особенно силён, выигрывая 14 из 16 конфигураций. Нулевая оценка на MSR-VTT показывает, что наша модель лучше всего переносится при низких бюджетах кадров, тогда как результаты при четырёх и восьми кадрах более неоднозначны, поскольку темпоральное покрытие и визуальное разнообразие становятся всё более конкурентоспособными. По сравнению с недавними адаптивными базовыми методами, PEEK является как более точным в режиме низкого бюджета, так и более эффективным: он добавляет всего 5,2% к времени субтитрирования, по сравнению с 65,4% для CSTA и 211,9% для MaxInfo. Мы публикуем наш код и предварительно обученную контрольную точку по адресу https://github.com/momentslab/peek.

English

Video-language models can process only a limited number of frames, making frame selection a key bottleneck for efficient video captioning. Most captioning pipelines still rely on uniform sampling, which is computationally cheap but agnostic to visual content. Adaptive frame sampling has recently emerged as a promising approach for selecting the most informative frames from a video; however, existing methods remain computationally expensive. We introduce PEEK, an efficient dynamic frame sampling method that distills caption-conditioned frame relevance rankings from a stronger teacher model into a lightweight temporal model that operates only on visual content. We find that, overall, on ActivityNet Captions and MSR-VTT, our method outperforms state-of-the-art methods across all evaluated downstream vision language models, especially when only one or two frames are selected for captioning, obtaining the best CIDEr for most frame budgets. On ActivityNet Captions, PEEK is particularly strong, winning 14 out of 16 configurations. Zero-shot evaluation on MSR-VTT shows that our model transfers best at low frame budgets, while results at four and eight frames are more mixed as temporal coverage and visual diversity become increasingly competitive. Compared with recent adaptive baselines, PEEK is both more accurate in the low-budget regime and more efficient: it adds only 5.2% to the captioning time, compared with 65.4% for CSTA and 211.9% for MaxInfo. We release our code and pre-trained checkpoint at https://github.com/momentslab/peek.