Geração de Legendas Dense em Vídeo em Tempo Real
Streaming Dense Video Captioning
April 1, 2024
Autores: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI
Resumo
Um modelo ideal para descrição densa de vídeos -- prever legendas localizadas temporalmente em um vídeo -- deve ser capaz de lidar com vídeos longos, prever descrições textuais ricas e detalhadas, e gerar saídas antes de processar o vídeo inteiro. No entanto, os modelos atuais de última geração processam um número fixo de quadros reduzidos e fazem uma única previsão completa após ver o vídeo inteiro. Propomos um modelo de descrição densa de vídeos em fluxo contínuo que consiste em dois novos componentes: Primeiro, propomos um novo módulo de memória, baseado no agrupamento de tokens recebidos, que pode lidar com vídeos arbitrariamente longos, pois a memória tem um tamanho fixo. Segundo, desenvolvemos um algoritmo de decodificação em fluxo contínuo que permite ao nosso modelo fazer previsões antes que o vídeo inteiro seja processado. Nosso modelo alcança essa capacidade de fluxo contínuo e melhora significativamente o estado da arte em três benchmarks de descrição densa de vídeos: ActivityNet, YouCook2 e ViTT. Nosso código está disponível em https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized
temporally in a video -- should be able to handle long input videos, predict
rich, detailed textual descriptions, and be able to produce outputs before
processing the entire video. Current state-of-the-art models, however, process
a fixed number of downsampled frames, and make a single full prediction after
seeing the whole video. We propose a streaming dense video captioning model
that consists of two novel components: First, we propose a new memory module,
based on clustering incoming tokens, which can handle arbitrarily long videos
as the memory is of a fixed size. Second, we develop a streaming decoding
algorithm that enables our model to make predictions before the entire video
has been processed. Our model achieves this streaming ability, and
significantly improves the state-of-the-art on three dense video captioning
benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at
https://github.com/google-research/scenic.