ChatPaper.aiChatPaper

OpenVid-1M: Ein umfangreiches hochwertiges Datenset für die Generierung von Text-zu-Video.

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

July 2, 2024
Autoren: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI

Zusammenfassung

Die Generierung von Text-zu-Video (T2V) hat kürzlich dank des großen Multi-Modalitätsmodells Sora erhebliche Aufmerksamkeit erregt. Dennoch stehen der T2V-Generierung immer noch zwei wichtige Herausforderungen gegenüber: 1) Das Fehlen eines präzisen, Open-Source-Hochwertigkeitsdatensatzes. Die zuvor beliebten Videodatensätze, z.B. WebVid-10M und Panda-70M, weisen entweder eine niedrige Qualität auf oder sind für die meisten Forschungseinrichtungen zu groß. Daher ist es herausfordernd, aber entscheidend, präzise hochwertige Text-Video-Paare für die T2V-Generierung zu sammeln. 2) Die unzureichende Nutzung von Textinformationen. Aktuelle T2V-Methoden haben sich auf Vision-Transformer konzentriert, die ein einfaches Kreuz-Aufmerksamkeitsmodul für die Videogenerierung verwenden, das nicht in der Lage ist, semantische Informationen aus dem Textprompt umfassend zu extrahieren. Um diese Probleme anzugehen, stellen wir OpenVid-1M vor, einen präzisen Hochwertigkeitsdatensatz mit ausdrucksstarken Bildunterschriften. Dieser offene Szenariodatensatz enthält über 1 Million Text-Video-Paare und erleichtert die Forschung zur T2V-Generierung. Darüber hinaus kuratieren wir 433K 1080p-Videos aus OpenVid-1M, um OpenVidHD-0.4M zu erstellen, was die Generierung von hochauflösenden Videos vorantreibt. Zusätzlich schlagen wir einen neuartigen Multi-Modalen Video-Diffusions-Transformer (MVDiT) vor, der in der Lage ist, sowohl Strukturinformationen aus visuellen Token als auch semantische Informationen aus Text-Token zu extrahieren. Umfangreiche Experimente und Ablationsstudien bestätigen die Überlegenheit von OpenVid-1M gegenüber früheren Datensätzen und die Wirksamkeit unseres MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.

Summary

AI-Generated Summary

PDF556November 28, 2024