InternVid : Un vaste ensemble de données vidéo-texte pour la compréhension et la génération multimodales
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
July 13, 2023
Auteurs: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Résumé
Cet article présente InternVid, un ensemble de données multimodal à grande échelle centré sur la vidéo, qui permet d'apprendre des représentations vidéo-texte puissantes et transférables pour la compréhension et la génération multimodales. Le jeu de données InternVid contient plus de 7 millions de vidéos d'une durée totale de près de 760 000 heures, produisant 234 millions de clips vidéo accompagnés de descriptions détaillées totalisant 4,1 milliards de mots. Notre contribution principale consiste à développer une approche scalable pour construire de manière autonome un ensemble de données vidéo-texte de haute qualité à l'aide de modèles de langage de grande taille (LLM), démontrant ainsi son efficacité pour l'apprentissage de représentations vidéo-langage à grande échelle. Plus précisément, nous utilisons une approche multi-échelle pour générer des descriptions liées aux vidéos. Par ailleurs, nous introduisons ViCLIP, un modèle d'apprentissage de représentations vidéo-texte basé sur ViT-L. Entraîné sur InternVid via un apprentissage contrastif, ce modèle démontre des performances de pointe en reconnaissance d'actions en zero-shot et des résultats compétitifs en recherche de vidéos. Au-delà des tâches de base de compréhension vidéo telles que la reconnaissance et la recherche, notre jeu de données et notre modèle ont des applications étendues. Ils sont particulièrement bénéfiques pour générer des données entrelacées vidéo-texte afin d'apprendre un système de dialogue centré sur la vidéo, et pour faire progresser la recherche en génération vidéo-texte et texte-vidéo. Ces ressources proposées offrent un outil précieux pour les chercheurs et praticiens intéressés par la compréhension et la génération multimodales de vidéos.
English
This paper introduces InternVid, a large-scale video-centric multimodal
dataset that enables learning powerful and transferable video-text
representations for multimodal understanding and generation. The InternVid
dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M
video clips accompanied by detailed descriptions of total 4.1B words. Our core
contribution is to develop a scalable approach to autonomously build a
high-quality video-text dataset with large language models (LLM), thereby
showcasing its efficacy in learning video-language representation at scale.
Specifically, we utilize a multi-scale approach to generate video-related
descriptions. Furthermore, we introduce ViCLIP, a video-text representation
learning model based on ViT-L. Learned on InternVid via contrastive learning,
this model demonstrates leading zero-shot action recognition and competitive
video retrieval performance. Beyond basic video understanding tasks like
recognition and retrieval, our dataset and model have broad applications. They
are particularly beneficial for generating interleaved video-text data for
learning a video-centric dialogue system, advancing video-to-text and
text-to-video generation research. These proposed resources provide a tool for
researchers and practitioners interested in multimodal video understanding and
generation.