판다-70M: 다중 교차 모달리티 교사로 70M 비디오 캡션 생성하기
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
February 29, 2024
저자: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
초록
데이터와 주석의 품질은 다운스트림 모델의 품질 상한을 결정한다. 대규모 텍스트 코퍼스와 이미지-텍스트 쌍은 존재하지만, 고품질의 비디오-텍스트 데이터는 수집하기가 훨씬 더 어렵다. 우선, 수동 라벨링은 더 많은 시간이 소요되는데, 이는 주석자가 전체 비디오를 시청해야 하기 때문이다. 둘째, 비디오는 시간적 차원을 가지며, 여러 장면이 겹쳐져 있고 여러 동작을 보여준다. 따라서 고품질 캡션을 가진 비디오 데이터셋을 구축하기 위해, 우리는 텍스트 비디오 설명, 자막, 개별 비디오 프레임과 같은 다중 모달 입력을 활용한 자동화된 접근 방식을 제안한다. 구체적으로, 우리는 공개적으로 이용 가능한 HD-VILA-100M 데이터셋에서 3.8M개의 고해상도 비디오를 선별한다. 그런 다음 이를 의미론적으로 일관된 비디오 클립으로 분할하고, 각 비디오에 대한 캡션을 얻기 위해 여러 교차 모달리티 교사 모델을 적용한다. 다음으로, 각 비디오의 최적 캡션을 수동으로 선택한 소규모 하위 집합에서 검색 모델을 미세 조정한 후, 전체 데이터셋에 이 모델을 적용하여 최적의 캡션을 주석으로 선택한다. 이 방식으로 우리는 고품질 텍스트 캡션과 짝을 이루는 70M개의 비디오를 확보한다. 우리는 이 데이터셋을 Panda-70M이라고 명명한다. 우리는 제안된 데이터셋의 가치를 세 가지 다운스트림 작업(비디오 캡셔닝, 비디오 및 텍스트 검색, 텍스트 기반 비디오 생성)에서 보여준다. 제안된 데이터로 훈련된 모델은 모든 작업에서 대부분의 메트릭에서 상당히 더 높은 점수를 기록한다.
English
The quality of the data and annotation upper-bounds the quality of a
downstream model. While there exist large text corpora and image-text pairs,
high-quality video-text data is much harder to collect. First of all, manual
labeling is more time-consuming, as it requires an annotator to watch an entire
video. Second, videos have a temporal dimension, consisting of several scenes
stacked together, and showing multiple actions. Accordingly, to establish a
video dataset with high-quality captions, we propose an automatic approach
leveraging multimodal inputs, such as textual video description, subtitles, and
individual video frames. Specifically, we curate 3.8M high-resolution videos
from the publicly available HD-VILA-100M dataset. We then split them into
semantically consistent video clips, and apply multiple cross-modality teacher
models to obtain captions for each video. Next, we finetune a retrieval model
on a small subset where the best caption of each video is manually selected and
then employ the model in the whole dataset to select the best caption as the
annotation. In this way, we get 70M videos paired with high-quality text
captions. We dub the dataset as Panda-70M. We show the value of the proposed
dataset on three downstream tasks: video captioning, video and text retrieval,
and text-driven video generation. The models trained on the proposed data score
substantially better on the majority of metrics across all the tasks.