Streaming di Descrizione Densa di Video
Streaming Dense Video Captioning
April 1, 2024
Autori: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI
Abstract
Un modello ideale per la descrizione densa di video -- la previsione di didascalie localizzate temporalmente in un video -- dovrebbe essere in grado di gestire video di input lunghi, prevedere descrizioni testuali ricche e dettagliate, e produrre output prima di aver elaborato l'intero video. I modelli attuali all'avanguardia, tuttavia, elaborano un numero fisso di frame sottocampionati e producono una singola previsione completa solo dopo aver visto l'intero video. Proponiamo un modello di descrizione densa di video in streaming che consiste di due componenti innovative: in primo luogo, proponiamo un nuovo modulo di memoria, basato sul clustering dei token in ingresso, che può gestire video di lunghezza arbitraria poiché la memoria ha una dimensione fissa. In secondo luogo, sviluppiamo un algoritmo di decodifica in streaming che consente al nostro modello di fare previsioni prima che l'intero video sia stato elaborato. Il nostro modello raggiunge questa capacità di streaming e migliora significativamente lo stato dell'arte su tre benchmark di descrizione densa di video: ActivityNet, YouCook2 e ViTT. Il nostro codice è disponibile all'indirizzo https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized
temporally in a video -- should be able to handle long input videos, predict
rich, detailed textual descriptions, and be able to produce outputs before
processing the entire video. Current state-of-the-art models, however, process
a fixed number of downsampled frames, and make a single full prediction after
seeing the whole video. We propose a streaming dense video captioning model
that consists of two novel components: First, we propose a new memory module,
based on clustering incoming tokens, which can handle arbitrarily long videos
as the memory is of a fixed size. Second, we develop a streaming decoding
algorithm that enables our model to make predictions before the entire video
has been processed. Our model achieves this streaming ability, and
significantly improves the state-of-the-art on three dense video captioning
benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at
https://github.com/google-research/scenic.