ChatPaper.aiChatPaper

Dichtes Videobeschreibung in Echtzeit

Streaming Dense Video Captioning

April 1, 2024
Autoren: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI

Zusammenfassung

Ein ideales Modell für dichte Videobeschreibungen - das Vorhersagen von lokalisierten Untertiteln in einem Video - sollte in der Lage sein, lange Eingangsvideos zu verarbeiten, reiche, detaillierte textuelle Beschreibungen vorherzusagen und Ausgaben erzeugen können, bevor das gesamte Video verarbeitet wurde. Aktuelle Spitzenmodelle verarbeiten jedoch eine feste Anzahl von abgetasteten Frames und geben eine einzige vollständige Vorhersage ab, nachdem das gesamte Video betrachtet wurde. Wir schlagen ein Modell für das kontinuierliche dichte Videobeschreiben vor, das aus zwei innovativen Komponenten besteht: Erstens schlagen wir ein neues Speichermodul vor, das auf dem Clustern eingehender Tokens basiert und beliebig lange Videos verarbeiten kann, da der Speicher eine feste Größe hat. Zweitens entwickeln wir einen kontinuierlichen Decodierungsalgorithmus, der unserem Modell ermöglicht, Vorhersagen zu treffen, bevor das gesamte Video verarbeitet wurde. Unser Modell erreicht diese kontinuierliche Fähigkeit und verbessert signifikant den Stand der Technik bei drei dichten Videobeschreibungs-Benchmarks: ActivityNet, YouCook2 und ViTT. Unser Code ist verfügbar unter https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art models, however, process a fixed number of downsampled frames, and make a single full prediction after seeing the whole video. We propose a streaming dense video captioning model that consists of two novel components: First, we propose a new memory module, based on clustering incoming tokens, which can handle arbitrarily long videos as the memory is of a fixed size. Second, we develop a streaming decoding algorithm that enables our model to make predictions before the entire video has been processed. Our model achieves this streaming ability, and significantly improves the state-of-the-art on three dense video captioning benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at https://github.com/google-research/scenic.

Summary

AI-Generated Summary

PDF132November 26, 2024