OpenVid-1M:テキストから動画生成のための大規模高品質データセット
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
著者: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
要旨
テキストからビデオ(T2V)生成は、大規模マルチモダリティモデルSoraの登場により、最近大きな注目を集めています。しかし、T2V生成には依然として2つの重要な課題が存在します。1)正確でオープンソースの高品質データセットの不足。従来の人気のあるビデオデータセット、例えばWebVid-10MやPanda-70Mは、品質が低いか、ほとんどの研究機関にとって規模が大きすぎるかのいずれかです。そのため、T2V生成のための正確で高品質なテキストとビデオのペアを収集することは困難ですが、非常に重要です。2)テキスト情報を十分に活用していないこと。最近のT2V手法はビジョントランスフォーマーに焦点を当て、ビデオ生成に単純なクロスアテンションモジュールを使用していますが、これではテキストプロンプトから意味情報を十分に抽出できません。これらの問題に対処するため、我々は表現力豊かなキャプションを持つ正確で高品質なデータセットOpenVid-1Mを紹介します。このオープンシナリオのデータセットは100万以上のテキストとビデオのペアを含み、T2V生成の研究を促進します。さらに、OpenVid-1Mから433Kの1080pビデオを選び、高解像度ビデオ生成を進めるためにOpenVidHD-0.4Mを作成しました。加えて、ビジュアルトークンから構造情報を、テキストトークンから意味情報を掘り下げることができる新しいマルチモーダルビデオ拡散トランスフォーマー(MVDiT)を提案します。広範な実験とアブレーションスタディにより、OpenVid-1Mが従来のデータセットを上回ること、および我々のMVDiTの有効性が検証されました。
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.Summary
AI-Generated Summary