VidChapters-7M : Chapitrage vidéo à grande échelle
VidChapters-7M: Video Chapters at Scale
September 25, 2023
Auteurs: Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid
cs.AI
Résumé
Segmenter les vidéos longues en chapitres permet aux utilisateurs de naviguer rapidement vers les informations qui les intéressent. Ce sujet important a été peu étudié en raison du manque de jeux de données publics. Pour résoudre ce problème, nous présentons VidChapters-7M, un ensemble de données de 817K vidéos découpées en chapitres par les utilisateurs, comprenant 7M chapitres au total. VidChapters-7M est créé automatiquement à partir de vidéos en ligne de manière scalable en extrayant les chapitres annotés par les utilisateurs, et donc sans aucune annotation manuelle supplémentaire. Nous introduisons les trois tâches suivantes basées sur ces données. Premièrement, la tâche de génération de chapitres vidéo consiste à segmenter temporellement la vidéo et à générer un titre de chapitre pour chaque segment. Pour approfondir l'analyse du problème, nous définissons également deux variantes de cette tâche : la génération de chapitres vidéo avec des limites temporelles données, qui nécessite de générer un titre de chapitre pour un segment vidéo annoté, et l'ancrage temporel de chapitres, qui consiste à localiser temporellement un chapitre à partir de son titre annoté. Nous évaluons à la fois des modèles de base simples et des modèles vidéo-texte de pointe pour ces trois tâches. Nous montrons également que le pré-entraînement sur VidChapters-7M se transfère bien aux tâches de description dense de vidéos, tant en mode zero-shot qu'en fine-tuning, améliorant considérablement l'état de l'art sur les benchmarks YouCook2 et ViTT. Enfin, nos expériences révèlent que les performances en aval évoluent favorablement avec la taille du jeu de données de pré-entraînement. Notre jeu de données, code et modèles sont disponibles publiquement à l'adresse https://antoyang.github.io/vidchapters.html.
English
Segmenting long videos into chapters enables users to quickly navigate to the
information of their interest. This important topic has been understudied due
to the lack of publicly released datasets. To address this issue, we present
VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters
in total. VidChapters-7M is automatically created from videos online in a
scalable manner by scraping user-annotated chapters and hence without any
additional manual annotation. We introduce the following three tasks based on
this data. First, the video chapter generation task consists of temporally
segmenting the video and generating a chapter title for each segment. To
further dissect the problem, we also define two variants of this task: video
chapter generation given ground-truth boundaries, which requires generating a
chapter title given an annotated video segment, and video chapter grounding,
which requires temporally localizing a chapter given its annotated title. We
benchmark both simple baselines and state-of-the-art video-language models for
these three tasks. We also show that pretraining on VidChapters-7M transfers
well to dense video captioning tasks in both zero-shot and finetuning settings,
largely improving the state of the art on the YouCook2 and ViTT benchmarks.
Finally, our experiments reveal that downstream performance scales well with
the size of the pretraining dataset. Our dataset, code, and models are publicly
available at https://antoyang.github.io/vidchapters.html.