OpenVid-1M: Um Conjunto de Dados de Grande Escala e Alta Qualidade para Geração de Vídeo a Partir de Texto
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
Autores: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
Resumo
A geração de texto para vídeo (T2V) tem recentemente recebido significativa atenção graças ao grande modelo multimodal Sora. No entanto, a geração T2V ainda enfrenta dois desafios importantes: 1) Falta de um conjunto de dados de alta qualidade, preciso e de código aberto. Os conjuntos de dados de vídeo populares anteriores, como WebVid-10M e Panda-70M, são de baixa qualidade ou muito grandes para a maioria das instituições de pesquisa. Portanto, é desafiador, mas crucial, coletar pares texto-vídeo precisos e de alta qualidade para a geração T2V. 2) Falha em utilizar totalmente a informação textual. Métodos recentes de T2V têm se concentrado em transformadores visuais, utilizando um módulo de atenção cruzada simples para a geração de vídeo, o que não extrai completamente informações semânticas da entrada de texto. Para abordar essas questões, apresentamos o OpenVid-1M, um conjunto de dados preciso e de alta qualidade com legendas expressivas. Este conjunto de dados de cenário aberto contém mais de 1 milhão de pares texto-vídeo, facilitando a pesquisa em geração T2V. Além disso, curamos 433 mil vídeos em 1080p do OpenVid-1M para criar o OpenVidHD-0.4M, avançando na geração de vídeos em alta definição. Adicionalmente, propomos um novo Transformador de Difusão de Vídeo Multimodal (MVDiT) capaz de extrair tanto informações estruturais dos tokens visuais quanto informações semânticas dos tokens de texto. Experimentos extensivos e estudos de ablação verificam a superioridade do OpenVid-1M em relação a conjuntos de dados anteriores e a eficácia do nosso MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.