ChatPaper.aiChatPaper

Video ReCap : Sous-titrage récursif de vidéos d'une heure

Video ReCap: Recursive Captioning of Hour-Long Videos

February 20, 2024
papers.authors: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI

papers.abstract

La plupart des modèles de légendage vidéo sont conçus pour traiter de courts clips vidéo de quelques secondes et produire un texte décrivant des concepts visuels de bas niveau (par exemple, des objets, des scènes, des actions atomiques). Cependant, la majorité des vidéos du monde réel durent plusieurs minutes ou heures et possèdent une structure hiérarchique complexe couvrant différentes granularités temporelles. Nous proposons Video ReCap, un modèle de légendage vidéo récursif capable de traiter des entrées vidéo de longueurs radicalement différentes (de 1 seconde à 2 heures) et de produire des légendes vidéo à plusieurs niveaux hiérarchiques. L'architecture récursive vidéo-langage exploite la synergie entre les différentes hiérarchies vidéo et permet de traiter efficacement des vidéos de plusieurs heures. Nous utilisons un schéma d'apprentissage par curriculum pour apprendre la structure hiérarchique des vidéos, en commençant par des légendes au niveau des clips décrivant des actions atomiques, puis en se concentrant sur des descriptions au niveau des segments, et en concluant par la génération de résumés pour des vidéos de plusieurs heures. Par ailleurs, nous introduisons le jeu de données Ego4D-HCap en enrichissant Ego4D avec 8 267 résumés vidéo à long terme collectés manuellement. Notre modèle récursif peut générer de manière flexible des légendes à différents niveaux hiérarchiques tout en étant également utile pour d'autres tâches complexes de compréhension vidéo, telles que la réponse à des questions sur vidéo (VideoQA) sur EgoSchema. Les données, le code et les modèles sont disponibles à l'adresse suivante : https://sites.google.com/view/vidrecap.
English
Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
PDF275December 15, 2024