OpenVid-1M: Un Dataset Su Ampia Scala e di Alta Qualità per la Generazione di Video da Testo
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
Autori: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
Abstract
La generazione di video da testo (Text-to-Video, T2V) ha recentemente attirato un'attenzione significativa grazie al modello multimodale di grandi dimensioni Sora. Tuttavia, la generazione T2V deve ancora affrontare due importanti sfide: 1) La mancanza di un dataset open source di alta qualità e preciso. I precedenti dataset video popolari, come WebVid-10M e Panda-70M, sono di bassa qualità o troppo grandi per la maggior parte delle istituzioni di ricerca. Pertanto, è impegnativo ma cruciale raccogliere coppie testo-video precise e di alta qualità per la generazione T2V. 2) La mancata piena utilizzazione delle informazioni testuali. I recenti metodi T2V si sono concentrati sui transformer visivi, utilizzando un semplice modulo di cross attention per la generazione di video, che non riesce a estrarre a fondo le informazioni semantiche dal prompt testuale. Per affrontare questi problemi, introduciamo OpenVid-1M, un dataset preciso e di alta qualità con didascalie espressive. Questo dataset in scenario aperto contiene oltre 1 milione di coppie testo-video, facilitando la ricerca sulla generazione T2V. Inoltre, selezioniamo 433K video in 1080p da OpenVid-1M per creare OpenVidHD-0.4M, avanzando nella generazione di video ad alta definizione. In aggiunta, proponiamo un nuovo Multi-modal Video Diffusion Transformer (MVDiT) in grado di estrarre sia le informazioni strutturali dai token visivi che le informazioni semantiche dai token testuali. Esperimenti estesi e studi di ablazione verificano la superiorità di OpenVid-1M rispetto ai precedenti dataset e l'efficacia del nostro MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.