ChatPaper.aiChatPaper

OpenVid-1M: Een grootschalige dataset van hoge kwaliteit voor tekst-naar-video-generatie

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

July 2, 2024
Auteurs: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI

Samenvatting

Text-to-video (T2V)-generatie heeft recentelijk aanzienlijke aandacht gekregen dankzij het grote multimodale model Sora. T2V-generatie staat echter nog steeds voor twee belangrijke uitdagingen: 1) Het ontbreekt aan een precies open-source hoogwaardige dataset. De eerder populaire videodatasets, zoals WebVid-10M en Panda-70M, zijn ofwel van lage kwaliteit of te groot voor de meeste onderzoeksinstellingen. Daarom is het uitdagend maar cruciaal om een precieze, hoogwaardige verzameling tekst-video-paren te verzamelen voor T2V-generatie. 2) Het negeren van het volledig benutten van tekstuele informatie. Recente T2V-methoden hebben zich gericht op vision-transformers, waarbij een eenvoudige cross-attention-module wordt gebruikt voor videogeneratie, wat tekortschiet in het grondig extraheren van semantische informatie uit tekstprompts. Om deze problemen aan te pakken, introduceren we OpenVid-1M, een precieze, hoogwaardige dataset met expressieve bijschriften. Deze open-scenario dataset bevat meer dan 1 miljoen tekst-video-paren, wat onderzoek naar T2V-generatie vergemakkelijkt. Bovendien hebben we 433K 1080p-video's uit OpenVid-1M geselecteerd om OpenVidHD-0.4M te creëren, wat de generatie van hoogwaardige video's bevordert. Daarnaast stellen we een nieuwe Multi-modal Video Diffusion Transformer (MVDiT) voor, die zowel structuurinformatie uit visuele tokens als semantische informatie uit teksttokens kan ontginnen. Uitgebreide experimenten en ablatiestudies bevestigen de superioriteit van OpenVid-1M ten opzichte van eerdere datasets en de effectiviteit van onze MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.
PDF546November 28, 2024