VidChapters-7M : Chapitrage vidéo à grande échelle

papers.abstract

Segmenter les vidéos longues en chapitres permet aux utilisateurs de naviguer rapidement vers les informations qui les intéressent. Ce sujet important a été peu étudié en raison du manque de jeux de données publics. Pour résoudre ce problème, nous présentons VidChapters-7M, un ensemble de données de 817K vidéos découpées en chapitres par les utilisateurs, comprenant 7M chapitres au total. VidChapters-7M est créé automatiquement à partir de vidéos en ligne de manière scalable en extrayant les chapitres annotés par les utilisateurs, et donc sans aucune annotation manuelle supplémentaire. Nous introduisons les trois tâches suivantes basées sur ces données. Premièrement, la tâche de génération de chapitres vidéo consiste à segmenter temporellement la vidéo et à générer un titre de chapitre pour chaque segment. Pour approfondir l'analyse du problème, nous définissons également deux variantes de cette tâche : la génération de chapitres vidéo avec des limites temporelles données, qui nécessite de générer un titre de chapitre pour un segment vidéo annoté, et l'ancrage temporel de chapitres, qui consiste à localiser temporellement un chapitre à partir de son titre annoté. Nous évaluons à la fois des modèles de base simples et des modèles vidéo-texte de pointe pour ces trois tâches. Nous montrons également que le pré-entraînement sur VidChapters-7M se transfère bien aux tâches de description dense de vidéos, tant en mode zero-shot qu'en fine-tuning, améliorant considérablement l'état de l'art sur les benchmarks YouCook2 et ViTT. Enfin, nos expériences révèlent que les performances en aval évoluent favorablement avec la taille du jeu de données de pré-entraînement. Notre jeu de données, code et modèles sont disponibles publiquement à l'adresse https://antoyang.github.io/vidchapters.html.

English

Segmenting long videos into chapters enables users to quickly navigate to the information of their interest. This important topic has been understudied due to the lack of publicly released datasets. To address this issue, we present VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters in total. VidChapters-7M is automatically created from videos online in a scalable manner by scraping user-annotated chapters and hence without any additional manual annotation. We introduce the following three tasks based on this data. First, the video chapter generation task consists of temporally segmenting the video and generating a chapter title for each segment. To further dissect the problem, we also define two variants of this task: video chapter generation given ground-truth boundaries, which requires generating a chapter title given an annotated video segment, and video chapter grounding, which requires temporally localizing a chapter given its annotated title. We benchmark both simple baselines and state-of-the-art video-language models for these three tasks. We also show that pretraining on VidChapters-7M transfers well to dense video captioning tasks in both zero-shot and finetuning settings, largely improving the state of the art on the YouCook2 and ViTT benchmarks. Finally, our experiments reveal that downstream performance scales well with the size of the pretraining dataset. Our dataset, code, and models are publicly available at https://antoyang.github.io/vidchapters.html.

VidChapters-7M : Chapitrage vidéo à grande échelle

VidChapters-7M: Video Chapters at Scale

papers.abstract

Support