OpenVid-1M : Un jeu de données à grande échelle et de haute qualité pour la génération de texte vers vidéo
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
Auteurs: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
Résumé
La génération de texte à vidéo (T2V) a récemment suscité un intérêt considérable grâce au modèle multi-modal de grande envergure Sora. Cependant, la génération T2V reste confrontée à deux défis majeurs : 1) L'absence d'un ensemble de données open source de haute qualité et précis. Les précédents ensembles de données vidéo populaires, tels que WebVid-10M et Panda-70M, sont soit de faible qualité, soit trop volumineux pour la plupart des institutions de recherche. Par conséquent, il est à la fois difficile et crucial de collecter des paires texte-vidéo précises et de haute qualité pour la génération T2V. 2) La sous-utilisation des informations textuelles. Les méthodes T2V récentes se sont concentrées sur les transformers visuels, utilisant un simple module d'attention croisée pour la génération de vidéos, ce qui ne permet pas d'extraire de manière approfondie les informations sémantiques des prompts textuels. Pour résoudre ces problèmes, nous introduisons OpenVid-1M, un ensemble de données précis et de haute qualité avec des légendes expressives. Ce jeu de données en scénario ouvert contient plus d'un million de paires texte-vidéo, facilitant la recherche sur la génération T2V. De plus, nous avons sélectionné 433 000 vidéos en 1080p à partir d'OpenVid-1M pour créer OpenVidHD-0.4M, faisant progresser la génération de vidéos haute définition. Par ailleurs, nous proposons un nouveau Multi-modal Video Diffusion Transformer (MVDiT) capable d'exploiter à la fois les informations structurelles des tokens visuels et les informations sémantiques des tokens textuels. Des expériences approfondies et des études d'ablation confirment la supériorité d'OpenVid-1M par rapport aux précédents ensembles de données et l'efficacité de notre MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.Summary
AI-Generated Summary