Video ReCap: Subtitulado Recursivo de Videos de Una Hora de Duración
Video ReCap: Recursive Captioning of Hour-Long Videos
February 20, 2024
Autores: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI
Resumen
La mayoría de los modelos de generación de subtítulos para videos están diseñados para procesar clips cortos de pocos segundos y producir texto que describe conceptos visuales de bajo nivel (por ejemplo, objetos, escenas, acciones atómicas). Sin embargo, la mayoría de los videos del mundo real duran minutos u horas y tienen una estructura jerárquica compleja que abarca diferentes granularidades temporales. Proponemos Video ReCap, un modelo recursivo de generación de subtítulos para videos que puede procesar entradas de video de longitudes drásticamente diferentes (desde 1 segundo hasta 2 horas) y generar subtítulos en múltiples niveles de jerarquía. La arquitectura recursiva de video y lenguaje aprovecha la sinergia entre las diferentes jerarquías de video y puede procesar videos de larga duración de manera eficiente. Utilizamos un esquema de entrenamiento basado en aprendizaje curricular para aprender la estructura jerárquica de los videos, comenzando con subtítulos a nivel de clip que describen acciones atómicas, luego enfocándonos en descripciones a nivel de segmento y concluyendo con la generación de resúmenes para videos de una hora de duración. Además, presentamos el conjunto de datos Ego4D-HCap, ampliando Ego4D con 8,267 resúmenes de video de largo alcance recopilados manualmente. Nuestro modelo recursivo puede generar subtítulos de manera flexible en diferentes niveles de jerarquía, siendo también útil para otras tareas complejas de comprensión de video, como VideoQA en EgoSchema. Los datos, código y modelos están disponibles en: https://sites.google.com/view/vidrecap.
English
Most video captioning models are designed to process short video clips of few
seconds and output text describing low-level visual concepts (e.g., objects,
scenes, atomic actions). However, most real-world videos last for minutes or
hours and have a complex hierarchical structure spanning different temporal
granularities. We propose Video ReCap, a recursive video captioning model that
can process video inputs of dramatically different lengths (from 1 second to 2
hours) and output video captions at multiple hierarchy levels. The recursive
video-language architecture exploits the synergy between different video
hierarchies and can process hour-long videos efficiently. We utilize a
curriculum learning training scheme to learn the hierarchical structure of
videos, starting from clip-level captions describing atomic actions, then
focusing on segment-level descriptions, and concluding with generating
summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by
augmenting Ego4D with 8,267 manually collected long-range video summaries. Our
recursive model can flexibly generate captions at different hierarchy levels
while also being useful for other complex video understanding tasks, such as
VideoQA on EgoSchema. Data, code, and models are available at:
https://sites.google.com/view/vidrecapSummary
AI-Generated Summary