ChatPaper.aiChatPaper

VidChapters-7M: 대규모 비디오 챕터 분류

VidChapters-7M: Video Chapters at Scale

September 25, 2023
저자: Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid
cs.AI

초록

긴 동영상을 챕터로 분할하면 사용자가 관심 있는 정보로 빠르게 이동할 수 있습니다. 이 중요한 주제는 공개된 데이터셋의 부족으로 인해 충분히 연구되지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 총 817,000개의 사용자 챕터링된 동영상과 700만 개의 챕터를 포함한 VidChapters-7M 데이터셋을 제안합니다. VidChapters-7M은 온라인 동영상에서 사용자가 주석을 단 챕터를 스크랩하여 확장 가능한 방식으로 자동 생성되며, 추가적인 수동 주석이 필요하지 않습니다. 우리는 이 데이터를 기반으로 다음과 같은 세 가지 작업을 소개합니다. 첫째, 동영상 챕터 생성 작업은 동영상을 시간적으로 분할하고 각 세그먼트에 대한 챕터 제목을 생성하는 것으로 구성됩니다. 이 문제를 더 깊이 분석하기 위해, 우리는 이 작업의 두 가지 변형도 정의합니다: 실제 경계가 주어진 동영상 챕터 생성(주석이 달린 동영상 세그먼트가 주어졌을 때 챕터 제목을 생성하는 작업)과 챕터 그라운딩(주석이 달린 제목이 주어졌을 때 챕터를 시간적으로 찾는 작업). 우리는 이 세 가지 작업에 대해 간단한 베이스라인과 최신 동영상-언어 모델을 벤치마킹합니다. 또한 VidChapters-7M으로 사전 학습을 하면 제로샷 및 파인튜닝 설정에서 밀집 동영상 캡셔닝 작업으로 잘 전이되며, YouCook2 및 ViTT 벤치마크에서 최신 기술을 크게 개선함을 보여줍니다. 마지막으로, 우리의 실험은 다운스트림 성능이 사전 학습 데이터셋의 크기에 따라 잘 확장됨을 보여줍니다. 우리의 데이터셋, 코드 및 모델은 https://antoyang.github.io/vidchapters.html에서 공개적으로 이용 가능합니다.
English
Segmenting long videos into chapters enables users to quickly navigate to the information of their interest. This important topic has been understudied due to the lack of publicly released datasets. To address this issue, we present VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters in total. VidChapters-7M is automatically created from videos online in a scalable manner by scraping user-annotated chapters and hence without any additional manual annotation. We introduce the following three tasks based on this data. First, the video chapter generation task consists of temporally segmenting the video and generating a chapter title for each segment. To further dissect the problem, we also define two variants of this task: video chapter generation given ground-truth boundaries, which requires generating a chapter title given an annotated video segment, and video chapter grounding, which requires temporally localizing a chapter given its annotated title. We benchmark both simple baselines and state-of-the-art video-language models for these three tasks. We also show that pretraining on VidChapters-7M transfers well to dense video captioning tasks in both zero-shot and finetuning settings, largely improving the state of the art on the YouCook2 and ViTT benchmarks. Finally, our experiments reveal that downstream performance scales well with the size of the pretraining dataset. Our dataset, code, and models are publicly available at https://antoyang.github.io/vidchapters.html.
PDF113December 15, 2024