ChatPaper.aiChatPaper

Generación Densa de Subtítulos en Video en Tiempo Real

Streaming Dense Video Captioning

April 1, 2024
Autores: Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
cs.AI

Resumen

Un modelo ideal para la descripción densa de videos -- predecir subtítulos localizados temporalmente en un video -- debería ser capaz de manejar videos de entrada largos, predecir descripciones textuales ricas y detalladas, y generar resultados antes de procesar el video completo. Sin embargo, los modelos actuales más avanzados procesan un número fijo de fotogramas reducidos y realizan una única predicción completa después de ver todo el video. Proponemos un modelo de descripción densa de videos en streaming que consta de dos componentes novedosos: primero, proponemos un nuevo módulo de memoria, basado en la agrupación de tokens entrantes, que puede manejar videos de longitud arbitraria ya que la memoria tiene un tamaño fijo. Segundo, desarrollamos un algoritmo de decodificación en streaming que permite a nuestro modelo hacer predicciones antes de que se haya procesado todo el video. Nuestro modelo logra esta capacidad de streaming y mejora significativamente el estado del arte en tres benchmarks de descripción densa de videos: ActivityNet, YouCook2 y ViTT. Nuestro código está disponible en https://github.com/google-research/scenic.
English
An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art models, however, process a fixed number of downsampled frames, and make a single full prediction after seeing the whole video. We propose a streaming dense video captioning model that consists of two novel components: First, we propose a new memory module, based on clustering incoming tokens, which can handle arbitrarily long videos as the memory is of a fixed size. Second, we develop a streaming decoding algorithm that enables our model to make predictions before the entire video has been processed. Our model achieves this streaming ability, and significantly improves the state-of-the-art on three dense video captioning benchmarks: ActivityNet, YouCook2 and ViTT. Our code is released at https://github.com/google-research/scenic.

Summary

AI-Generated Summary

PDF132November 26, 2024