ChatPaper.aiChatPaper

Génération de descriptions denses en streaming pour la vidéo

Streaming Dense Video Captioning

April 1, 2024
Auteurs: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI

Résumé

Un modèle idéal pour la description vidéo dense -- prédire des légendes localisées temporellement dans une vidéo -- devrait être capable de gérer des vidéos d'entrée longues, prédire des descriptions textuelles riches et détaillées, et produire des sorties avant d'avoir traité l'intégralité de la vidéo. Cependant, les modèles actuels de pointe traitent un nombre fixe d'images sous-échantillonnées et effectuent une prédiction complète unique après avoir vu l'ensemble de la vidéo. Nous proposons un modèle de description vidéo dense en flux continu qui comprend deux composants novateurs : Premièrement, nous proposons un nouveau module de mémoire, basé sur le regroupement des tokens entrants, qui peut gérer des vidéos de longueur arbitraire car la mémoire est de taille fixe. Deuxièmement, nous développons un algorithme de décodage en flux continu qui permet à notre modèle de faire des prédictions avant que la vidéo entière n'ait été traitée. Notre modèle atteint cette capacité de flux continu et améliore significativement l'état de l'art sur trois benchmarks de description vidéo dense : ActivityNet, YouCook2 et ViTT. Notre code est disponible à l'adresse https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art models, however, process a fixed number of downsampled frames, and make a single full prediction after seeing the whole video. We propose a streaming dense video captioning model that consists of two novel components: First, we propose a new memory module, based on clustering incoming tokens, which can handle arbitrarily long videos as the memory is of a fixed size. Second, we develop a streaming decoding algorithm that enables our model to make predictions before the entire video has been processed. Our model achieves this streaming ability, and significantly improves the state-of-the-art on three dense video captioning benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at https://github.com/google-research/scenic.

Summary

AI-Generated Summary

PDF132November 26, 2024