OpenVid-1M : Un jeu de données à grande échelle et de haute qualité pour la génération de texte vers vidéo

papers.abstract

La génération de texte à vidéo (T2V) a récemment suscité un intérêt considérable grâce au modèle multi-modal de grande envergure Sora. Cependant, la génération T2V reste confrontée à deux défis majeurs : 1) L'absence d'un ensemble de données open source de haute qualité et précis. Les précédents ensembles de données vidéo populaires, tels que WebVid-10M et Panda-70M, sont soit de faible qualité, soit trop volumineux pour la plupart des institutions de recherche. Par conséquent, il est à la fois difficile et crucial de collecter des paires texte-vidéo précises et de haute qualité pour la génération T2V. 2) La sous-utilisation des informations textuelles. Les méthodes T2V récentes se sont concentrées sur les transformers visuels, utilisant un simple module d'attention croisée pour la génération de vidéos, ce qui ne permet pas d'extraire de manière approfondie les informations sémantiques des prompts textuels. Pour résoudre ces problèmes, nous introduisons OpenVid-1M, un ensemble de données précis et de haute qualité avec des légendes expressives. Ce jeu de données en scénario ouvert contient plus d'un million de paires texte-vidéo, facilitant la recherche sur la génération T2V. De plus, nous avons sélectionné 433 000 vidéos en 1080p à partir d'OpenVid-1M pour créer OpenVidHD-0.4M, faisant progresser la génération de vidéos haute définition. Par ailleurs, nous proposons un nouveau Multi-modal Video Diffusion Transformer (MVDiT) capable d'exploiter à la fois les informations structurelles des tokens visuels et les informations sémantiques des tokens textuels. Des expériences approfondies et des études d'ablation confirment la supériorité d'OpenVid-1M par rapport aux précédents ensembles de données et l'efficacité de notre MVDiT.

English

Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.

OpenVid-1M : Un jeu de données à grande échelle et de haute qualité pour la génération de texte vers vidéo

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

papers.abstract

Support