ChatPaper.aiChatPaper

Streaming Dichte Videobeschrijving

Streaming Dense Video Captioning

April 1, 2024
Auteurs: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI

Samenvatting

Een ideaal model voor dense video captioning -- het voorspellen van bijschriften die tijdelijk in een video zijn gelokaliseerd -- zou in staat moeten zijn om lange invoervideo's te verwerken, rijke, gedetailleerde tekstuele beschrijvingen te voorspellen, en uitvoer te kunnen genereren voordat de hele video is verwerkt. De huidige state-of-the-art modellen verwerken echter een vast aantal gedownsamplede frames en maken een enkele volledige voorspelling nadat de hele video is bekeken. Wij stellen een streaming dense video captioning-model voor dat bestaat uit twee nieuwe componenten: Ten eerste introduceren we een nieuwe geheugenmodule, gebaseerd op het clusteren van binnenkomende tokens, die willekeurig lange video's kan verwerken omdat het geheugen een vaste grootte heeft. Ten tweede ontwikkelen we een streaming decodeeralgoritme dat ons model in staat stelt voorspellingen te doen voordat de hele video is verwerkt. Ons model bereikt deze streaming-capaciteit en verbetert de state-of-the-art aanzienlijk op drie dense video captioning benchmarks: ActivityNet, YouCook2 en ViTT. Onze code is vrijgegeven op https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art models, however, process a fixed number of downsampled frames, and make a single full prediction after seeing the whole video. We propose a streaming dense video captioning model that consists of two novel components: First, we propose a new memory module, based on clustering incoming tokens, which can handle arbitrarily long videos as the memory is of a fixed size. Second, we develop a streaming decoding algorithm that enables our model to make predictions before the entire video has been processed. Our model achieves this streaming ability, and significantly improves the state-of-the-art on three dense video captioning benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at https://github.com/google-research/scenic.
PDF132November 26, 2024