Video ReCap: Recursief Onderschrijven van Uur-lange Video's
Video ReCap: Recursive Captioning of Hour-Long Videos
February 20, 2024
Auteurs: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI
Samenvatting
De meeste modellen voor videobijschriften zijn ontworpen om korte videoclips van enkele seconden te verwerken en tekst uit te voeren die visuele concepten op laag niveau beschrijft (bijv. objecten, scènes, atomische acties). Echter, de meeste video's in de echte wereld duren minuten of uren en hebben een complexe hiërarchische structuur die verschillende temporele granulariteiten omvat. Wij stellen Video ReCap voor, een recursief model voor videobijschriften dat video-invoer van sterk uiteenlopende lengtes (van 1 seconde tot 2 uur) kan verwerken en videobijschriften op meerdere hiërarchieniveaus kan uitvoeren. De recursieve video-taalarchitectuur benut de synergie tussen verschillende videohiërarchieën en kan urenlange video's efficiënt verwerken. We gebruiken een curriculumleren-trainingsschema om de hiërarchische structuur van video's te leren, beginnend met clipniveau-bijschriften die atomische acties beschrijven, vervolgens gericht op segmentniveau-beschrijvingen, en eindigend met het genereren van samenvattingen voor urenlange video's. Bovendien introduceren we de Ego4D-HCap-dataset door Ego4D aan te vullen met 8.267 handmatig verzamelde langetermijnvideo-samenvattingen. Ons recursieve model kan flexibel bijschriften genereren op verschillende hiërarchieniveaus en is ook nuttig voor andere complexe videobegriptaken, zoals VideoQA op EgoSchema. Data, code en modellen zijn beschikbaar op: https://sites.google.com/view/vidrecap.
English
Most video captioning models are designed to process short video clips of few
seconds and output text describing low-level visual concepts (e.g., objects,
scenes, atomic actions). However, most real-world videos last for minutes or
hours and have a complex hierarchical structure spanning different temporal
granularities. We propose Video ReCap, a recursive video captioning model that
can process video inputs of dramatically different lengths (from 1 second to 2
hours) and output video captions at multiple hierarchy levels. The recursive
video-language architecture exploits the synergy between different video
hierarchies and can process hour-long videos efficiently. We utilize a
curriculum learning training scheme to learn the hierarchical structure of
videos, starting from clip-level captions describing atomic actions, then
focusing on segment-level descriptions, and concluding with generating
summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by
augmenting Ego4D with 8,267 manually collected long-range video summaries. Our
recursive model can flexibly generate captions at different hierarchy levels
while also being useful for other complex video understanding tasks, such as
VideoQA on EgoSchema. Data, code, and models are available at:
https://sites.google.com/view/vidrecap