ChatPaper.aiChatPaper

Geração de Legendas Dense em Vídeo em Tempo Real

Streaming Dense Video Captioning

April 1, 2024
Autores: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI

Resumo

Um modelo ideal para descrição densa de vídeos -- prever legendas localizadas temporalmente em um vídeo -- deve ser capaz de lidar com vídeos longos, prever descrições textuais ricas e detalhadas, e gerar saídas antes de processar o vídeo inteiro. No entanto, os modelos atuais de última geração processam um número fixo de quadros reduzidos e fazem uma única previsão completa após ver o vídeo inteiro. Propomos um modelo de descrição densa de vídeos em fluxo contínuo que consiste em dois novos componentes: Primeiro, propomos um novo módulo de memória, baseado no agrupamento de tokens recebidos, que pode lidar com vídeos arbitrariamente longos, pois a memória tem um tamanho fixo. Segundo, desenvolvemos um algoritmo de decodificação em fluxo contínuo que permite ao nosso modelo fazer previsões antes que o vídeo inteiro seja processado. Nosso modelo alcança essa capacidade de fluxo contínuo e melhora significativamente o estado da arte em três benchmarks de descrição densa de vídeos: ActivityNet, YouCook2 e ViTT. Nosso código está disponível em https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art models, however, process a fixed number of downsampled frames, and make a single full prediction after seeing the whole video. We propose a streaming dense video captioning model that consists of two novel components: First, we propose a new memory module, based on clustering incoming tokens, which can handle arbitrarily long videos as the memory is of a fixed size. Second, we develop a streaming decoding algorithm that enables our model to make predictions before the entire video has been processed. Our model achieves this streaming ability, and significantly improves the state-of-the-art on three dense video captioning benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at https://github.com/google-research/scenic.
PDF132November 26, 2024