ChatPaper.aiChatPaper

Panda-70M : Légender 70 millions de vidéos avec plusieurs enseignants en cross-modalité

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

February 29, 2024
Auteurs: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI

Résumé

La qualité des données et des annotations détermine la limite supérieure de la qualité d'un modèle en aval. Bien qu'il existe de grands corpus textuels et des paires image-texte, les données vidéo-texte de haute qualité sont beaucoup plus difficiles à collecter. Tout d'abord, l'étiquetage manuel est plus chronophage, car il nécessite qu'un annotateur visionne une vidéo entière. Ensuite, les vidéos possèdent une dimension temporelle, composée de plusieurs scènes empilées les unes sur les autres, et montrant de multiples actions. Par conséquent, pour établir un ensemble de données vidéo avec des légendes de haute qualité, nous proposons une approche automatique exploitant des entrées multimodales, telles que la description textuelle de la vidéo, les sous-titres et les images individuelles de la vidéo. Plus précisément, nous sélectionnons 3,8 millions de vidéos haute résolution provenant du jeu de données HD-VILA-100M, accessible au public. Nous les divisons ensuite en clips vidéo sémantiquement cohérents, et appliquons plusieurs modèles enseignants inter-modaux pour obtenir des légendes pour chaque vidéo. Ensuite, nous affinons un modèle de récupération sur un petit sous-ensemble où la meilleure légende de chaque vidéo est sélectionnée manuellement, puis nous utilisons ce modèle sur l'ensemble du jeu de données pour sélectionner la meilleure légende comme annotation. De cette manière, nous obtenons 70 millions de vidéos associées à des légendes textuelles de haute qualité. Nous baptisons ce jeu de données Panda-70M. Nous démontrons la valeur du jeu de données proposé sur trois tâches en aval : la génération de légendes vidéo, la récupération vidéo et texte, et la génération de vidéos pilotée par texte. Les modèles entraînés sur les données proposées obtiennent des scores nettement supérieurs sur la majorité des métriques pour toutes les tâches.
English
The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.
PDF353December 15, 2024