ChatPaper.aiChatPaper

OpenVid-1M: Un conjunto de datos a gran escala de alta calidad para la generación de texto a video.

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

July 2, 2024
Autores: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI

Resumen

La generación de texto a video (T2V) ha recibido recientemente una atención significativa gracias al gran modelo de multimodalidad Sora. Sin embargo, la generación T2V todavía enfrenta dos desafíos importantes: 1) La falta de un conjunto de datos de alta calidad, preciso y de código abierto. Los conjuntos de datos de video populares anteriores, como WebVid-10M y Panda-70M, tienen una calidad baja o son demasiado grandes para la mayoría de las instituciones de investigación. Por lo tanto, es un desafío pero crucial recopilar pares de texto-video precisos y de alta calidad para la generación T2V. 2) Ignorar el aprovechamiento total de la información textual. Los métodos recientes de T2V se han centrado en transformadores visuales, utilizando un módulo de atención cruzada simple para la generación de video, lo que no logra extraer completamente la información semántica de la indicación de texto. Para abordar estos problemas, presentamos OpenVid-1M, un conjunto de datos preciso y de alta calidad con descripciones expresivas. Este conjunto de datos de escenario abierto contiene más de 1 millón de pares de texto-video, facilitando la investigación sobre la generación T2V. Además, curamos 433K videos en 1080p de OpenVid-1M para crear OpenVidHD-0.4M, avanzando en la generación de video de alta definición. Además, proponemos un nuevo Transformador de Difusión de Video Multimodal (MVDiT) capaz de extraer tanto información estructural de tokens visuales como información semántica de tokens de texto. Experimentos extensos y estudios de ablación verifican la superioridad de OpenVid-1M sobre conjuntos de datos anteriores y la efectividad de nuestro MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.

Summary

AI-Generated Summary

PDF556November 28, 2024