OpenVid-1M: Un conjunto de datos a gran escala de alta calidad para la generación de texto a video.
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
Autores: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
Resumen
La generación de texto a video (T2V) ha recibido recientemente una atención significativa gracias al gran modelo de multimodalidad Sora. Sin embargo, la generación T2V todavía enfrenta dos desafíos importantes: 1) La falta de un conjunto de datos de alta calidad, preciso y de código abierto. Los conjuntos de datos de video populares anteriores, como WebVid-10M y Panda-70M, tienen una calidad baja o son demasiado grandes para la mayoría de las instituciones de investigación. Por lo tanto, es un desafío pero crucial recopilar pares de texto-video precisos y de alta calidad para la generación T2V. 2) Ignorar el aprovechamiento total de la información textual. Los métodos recientes de T2V se han centrado en transformadores visuales, utilizando un módulo de atención cruzada simple para la generación de video, lo que no logra extraer completamente la información semántica de la indicación de texto. Para abordar estos problemas, presentamos OpenVid-1M, un conjunto de datos preciso y de alta calidad con descripciones expresivas. Este conjunto de datos de escenario abierto contiene más de 1 millón de pares de texto-video, facilitando la investigación sobre la generación T2V. Además, curamos 433K videos en 1080p de OpenVid-1M para crear OpenVidHD-0.4M, avanzando en la generación de video de alta definición. Además, proponemos un nuevo Transformador de Difusión de Video Multimodal (MVDiT) capaz de extraer tanto información estructural de tokens visuales como información semántica de tokens de texto. Experimentos extensos y estudios de ablación verifican la superioridad de OpenVid-1M sobre conjuntos de datos anteriores y la efectividad de nuestro MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.Summary
AI-Generated Summary