Video ReCap: Rekursive Beschreibung von stundenlangen Videos
Video ReCap: Recursive Captioning of Hour-Long Videos
February 20, 2024
Autoren: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI
Zusammenfassung
Die meisten Videobeschreibungsmodelle sind darauf ausgelegt, kurze Videoclips von wenigen Sekunden zu verarbeiten und Text zu erzeugen, der niedrigstufige visuelle Konzepte beschreibt (z. B. Objekte, Szenen, atomare Aktionen). Die meisten realen Videos dauern jedoch Minuten oder Stunden und weisen eine komplexe hierarchische Struktur auf, die verschiedene zeitliche Granularitäten umfasst. Wir stellen Video ReCap vor, ein rekursives Videobeschreibungsmodell, das Videoeingaben von dramatisch unterschiedlicher Länge (von 1 Sekunde bis zu 2 Stunden) verarbeiten und Videobeschreibungen auf mehreren Hierarchieebenen ausgeben kann. Die rekursive Video-Sprach-Architektur nutzt die Synergie zwischen verschiedenen Videohierarchien und kann stundenlange Videos effizient verarbeiten. Wir verwenden ein Curriculum-Learning-Trainingsschema, um die hierarchische Struktur von Videos zu erlernen, beginnend mit Clip-basierten Beschreibungen, die atomare Aktionen beschreiben, dann mit Segment-basierten Beschreibungen und abschließend mit der Generierung von Zusammenfassungen für stundenlange Videos. Darüber hinaus stellen wir den Ego4D-HCap-Datensatz vor, indem wir Ego4D mit 8.267 manuell gesammelten Langzeit-Videozusammenfassungen erweitern. Unser rekursives Modell kann flexibel Beschreibungen auf verschiedenen Hierarchieebenen generieren und ist auch für andere komplexe Video-Verstehenstasks nützlich, wie z. B. VideoQA auf EgoSchema. Daten, Code und Modelle sind verfügbar unter: https://sites.google.com/view/vidrecap.
English
Most video captioning models are designed to process short video clips of few
seconds and output text describing low-level visual concepts (e.g., objects,
scenes, atomic actions). However, most real-world videos last for minutes or
hours and have a complex hierarchical structure spanning different temporal
granularities. We propose Video ReCap, a recursive video captioning model that
can process video inputs of dramatically different lengths (from 1 second to 2
hours) and output video captions at multiple hierarchy levels. The recursive
video-language architecture exploits the synergy between different video
hierarchies and can process hour-long videos efficiently. We utilize a
curriculum learning training scheme to learn the hierarchical structure of
videos, starting from clip-level captions describing atomic actions, then
focusing on segment-level descriptions, and concluding with generating
summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by
augmenting Ego4D with 8,267 manually collected long-range video summaries. Our
recursive model can flexibly generate captions at different hierarchy levels
while also being useful for other complex video understanding tasks, such as
VideoQA on EgoSchema. Data, code, and models are available at:
https://sites.google.com/view/vidrecapSummary
AI-Generated Summary