Video ReCap: Legendagem Recursiva de Vídeos de Longa Duração
Video ReCap: Recursive Captioning of Hour-Long Videos
February 20, 2024
Autores: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI
Resumo
A maioria dos modelos de legendagem de vídeo é projetada para processar clipes curtos de alguns segundos e gerar textos que descrevem conceitos visuais de baixo nível (por exemplo, objetos, cenas, ações atômicas). No entanto, a maioria dos vídeos do mundo real dura minutos ou horas e possui uma estrutura hierárquica complexa que abrange diferentes granularidades temporais. Propomos o Video ReCap, um modelo de legendagem de vídeo recursivo que pode processar entradas de vídeo com durações dramaticamente diferentes (de 1 segundo a 2 horas) e gerar legendas de vídeo em múltiplos níveis hierárquicos. A arquitetura recursiva de vídeo e linguagem explora a sinergia entre diferentes hierarquias de vídeo e pode processar vídeos longos de forma eficiente. Utilizamos um esquema de treinamento de aprendizado curricular para aprender a estrutura hierárquica dos vídeos, começando com legendas em nível de clipe que descrevem ações atômicas, depois focando em descrições em nível de segmento e concluindo com a geração de resumos para vídeos de longa duração. Além disso, introduzimos o conjunto de dados Ego4D-HCap, aumentando o Ego4D com 8.267 resumos de vídeos de longo alcance coletados manualmente. Nosso modelo recursivo pode gerar legendas de forma flexível em diferentes níveis hierárquicos, sendo também útil para outras tarefas complexas de compreensão de vídeo, como VideoQA no EgoSchema. Dados, código e modelos estão disponíveis em: https://sites.google.com/view/vidrecap
English
Most video captioning models are designed to process short video clips of few
seconds and output text describing low-level visual concepts (e.g., objects,
scenes, atomic actions). However, most real-world videos last for minutes or
hours and have a complex hierarchical structure spanning different temporal
granularities. We propose Video ReCap, a recursive video captioning model that
can process video inputs of dramatically different lengths (from 1 second to 2
hours) and output video captions at multiple hierarchy levels. The recursive
video-language architecture exploits the synergy between different video
hierarchies and can process hour-long videos efficiently. We utilize a
curriculum learning training scheme to learn the hierarchical structure of
videos, starting from clip-level captions describing atomic actions, then
focusing on segment-level descriptions, and concluding with generating
summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by
augmenting Ego4D with 8,267 manually collected long-range video summaries. Our
recursive model can flexibly generate captions at different hierarchy levels
while also being useful for other complex video understanding tasks, such as
VideoQA on EgoSchema. Data, code, and models are available at:
https://sites.google.com/view/vidrecap