Плотная генерация подписей видео в реальном времени
Streaming Dense Video Captioning
April 1, 2024
Авторы: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI
Аннотация
Идеальная модель для плотного описания видео - предсказание подписей, локализованных во времени на видео - должна быть способна обрабатывать длинные входные видео, предсказывать богатые, подробные текстовые описания и производить выводы до завершения обработки всего видео. Однако текущие передовые модели обрабатывают фиксированное количество уменьшенных кадров и делают одно полное предсказание после просмотра всего видео. Мы предлагаем модель плотного описания видео в реальном времени, которая состоит из двух новых компонентов: Во-первых, мы предлагаем новый модуль памяти, основанный на кластеризации поступающих токенов, который может обрабатывать произвольно длинные видео, поскольку память имеет фиксированный размер. Во-вторых, мы разрабатываем алгоритм потокового декодирования, который позволяет нашей модели делать предсказания до завершения обработки всего видео. Наша модель достигает этой возможности потоковой обработки и значительно улучшает передовые показатели на трех бенчмарках плотного описания видео: ActivityNet, YouCook2 и ViTT. Наш код доступен по ссылке https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized
temporally in a video -- should be able to handle long input videos, predict
rich, detailed textual descriptions, and be able to produce outputs before
processing the entire video. Current state-of-the-art models, however, process
a fixed number of downsampled frames, and make a single full prediction after
seeing the whole video. We propose a streaming dense video captioning model
that consists of two novel components: First, we propose a new memory module,
based on clustering incoming tokens, which can handle arbitrarily long videos
as the memory is of a fixed size. Second, we develop a streaming decoding
algorithm that enables our model to make predictions before the entire video
has been processed. Our model achieves this streaming ability, and
significantly improves the state-of-the-art on three dense video captioning
benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at
https://github.com/google-research/scenic.Summary
AI-Generated Summary