VidChapters-7M: 대규모 비디오 챕터 분류
VidChapters-7M: Video Chapters at Scale
September 25, 2023
저자: Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid
cs.AI
초록
긴 동영상을 챕터로 분할하면 사용자가 관심 있는 정보로 빠르게 이동할 수 있습니다. 이 중요한 주제는 공개된 데이터셋의 부족으로 인해 충분히 연구되지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 총 817,000개의 사용자 챕터링된 동영상과 700만 개의 챕터를 포함한 VidChapters-7M 데이터셋을 제안합니다. VidChapters-7M은 온라인 동영상에서 사용자가 주석을 단 챕터를 스크랩하여 확장 가능한 방식으로 자동 생성되며, 추가적인 수동 주석이 필요하지 않습니다. 우리는 이 데이터를 기반으로 다음과 같은 세 가지 작업을 소개합니다. 첫째, 동영상 챕터 생성 작업은 동영상을 시간적으로 분할하고 각 세그먼트에 대한 챕터 제목을 생성하는 것으로 구성됩니다. 이 문제를 더 깊이 분석하기 위해, 우리는 이 작업의 두 가지 변형도 정의합니다: 실제 경계가 주어진 동영상 챕터 생성(주석이 달린 동영상 세그먼트가 주어졌을 때 챕터 제목을 생성하는 작업)과 챕터 그라운딩(주석이 달린 제목이 주어졌을 때 챕터를 시간적으로 찾는 작업). 우리는 이 세 가지 작업에 대해 간단한 베이스라인과 최신 동영상-언어 모델을 벤치마킹합니다. 또한 VidChapters-7M으로 사전 학습을 하면 제로샷 및 파인튜닝 설정에서 밀집 동영상 캡셔닝 작업으로 잘 전이되며, YouCook2 및 ViTT 벤치마크에서 최신 기술을 크게 개선함을 보여줍니다. 마지막으로, 우리의 실험은 다운스트림 성능이 사전 학습 데이터셋의 크기에 따라 잘 확장됨을 보여줍니다. 우리의 데이터셋, 코드 및 모델은 https://antoyang.github.io/vidchapters.html에서 공개적으로 이용 가능합니다.
English
Segmenting long videos into chapters enables users to quickly navigate to the
information of their interest. This important topic has been understudied due
to the lack of publicly released datasets. To address this issue, we present
VidChapters-7M, a dataset of 817K user-chaptered videos including 7M chapters
in total. VidChapters-7M is automatically created from videos online in a
scalable manner by scraping user-annotated chapters and hence without any
additional manual annotation. We introduce the following three tasks based on
this data. First, the video chapter generation task consists of temporally
segmenting the video and generating a chapter title for each segment. To
further dissect the problem, we also define two variants of this task: video
chapter generation given ground-truth boundaries, which requires generating a
chapter title given an annotated video segment, and video chapter grounding,
which requires temporally localizing a chapter given its annotated title. We
benchmark both simple baselines and state-of-the-art video-language models for
these three tasks. We also show that pretraining on VidChapters-7M transfers
well to dense video captioning tasks in both zero-shot and finetuning settings,
largely improving the state of the art on the YouCook2 and ViTT benchmarks.
Finally, our experiments reveal that downstream performance scales well with
the size of the pretraining dataset. Our dataset, code, and models are publicly
available at https://antoyang.github.io/vidchapters.html.