ChatPaper.aiChatPaper

Panda-70M: Beschriftung von 70 Millionen Videos mit mehreren Cross-Modality-Lehrern

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

February 29, 2024
Autoren: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Zusammenfassung

Die Qualität der Daten und Annotationen bestimmt die Obergrenze für die Qualität eines nachgelagerten Modells. Während es große Textkorpora und Bild-Text-Paare gibt, ist die Sammlung hochwertiger Video-Text-Daten wesentlich schwieriger. Erstens ist die manuelle Beschriftung zeitaufwendiger, da ein Annotator das gesamte Video ansehen muss. Zweitens besitzen Videos eine zeitliche Dimension, die aus mehreren zusammenhängenden Szenen besteht und mehrere Aktionen zeigt. Um ein Videodatensatz mit hochwertigen Beschriftungen zu erstellen, schlagen wir daher einen automatisierten Ansatz vor, der multimodale Eingaben wie textuelle Videobeschreibungen, Untertitel und einzelne Videobilder nutzt. Konkret kuratieren wir 3,8 Millionen hochauflösende Videos aus dem öffentlich verfügbaren HD-VILA-100M-Datensatz. Diese teilen wir in semantisch konsistente Videoclips auf und wenden mehrere Cross-Modality-Lehrermodelle an, um Beschriftungen für jedes Video zu erhalten. Anschließend feintunen wir ein Retrieval-Modell auf einer kleinen Teilmenge, bei der die beste Beschriftung für jedes Video manuell ausgewählt wird, und setzen das Modell dann auf den gesamten Datensatz ein, um die beste Beschriftung als Annotation auszuwählen. Auf diese Weise erhalten wir 70 Millionen Videos, die mit hochwertigen Textbeschriftungen gepaart sind. Wir nennen diesen Datensatz Panda-70M. Wir demonstrieren den Wert des vorgeschlagenen Datensatzes anhand von drei nachgelagerten Aufgaben: Videobeschriftung, Video- und Text-Retrieval sowie textgesteuerte Videogenerierung. Die auf den vorgeschlagenen Daten trainierten Modelle erzielen bei der Mehrheit der Metriken über alle Aufgaben hinweg deutlich bessere Ergebnisse.
English
The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.
PDF353December 15, 2024