MiraData: Um Conjunto de Dados de Vídeo em Grande Escala com Longas Durações e Legendas Estruturadas
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
July 8, 2024
Autores: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI
Resumo
A intensidade de movimento elevada e os vídeos longos e consistentes de Sora tiveram um impacto significativo no campo da geração de vídeos, atraindo uma atenção sem precedentes. No entanto, os conjuntos de dados publicamente disponíveis existentes são inadequados para gerar vídeos semelhantes aos de Sora, pois contêm principalmente vídeos curtos com baixa intensidade de movimento e legendas breves. Para lidar com essas questões, propomos o MiraData, um conjunto de dados de vídeo de alta qualidade que supera os anteriores em duração de vídeo, detalhes de legenda, intensidade de movimento e qualidade visual. Nós curamos o MiraData a partir de fontes diversas, selecionadas manualmente, e processamos meticulosamente os dados para obter clipes semanticamente consistentes. O GPT-4V é utilizado para anotar legendas estruturadas, fornecendo descrições detalhadas a partir de quatro perspectivas diferentes, juntamente com uma legenda densa resumida. Para avaliar melhor a consistência temporal e a intensidade de movimento na geração de vídeos, introduzimos o MiraBench, que aprimora os benchmarks existentes adicionando métricas de consistência 3D e intensidade de movimento baseada em rastreamento. O MiraBench inclui 150 solicitações de avaliação e 17 métricas que abrangem consistência temporal, intensidade de movimento, consistência 3D, qualidade visual, alinhamento texto-vídeo e similaridade de distribuição. Para demonstrar a utilidade e eficácia do MiraData, conduzimos experimentos usando nosso modelo de geração de vídeo baseado em DiT, o MiraDiT. Os resultados experimentais no MiraBench demonstram a superioridade do MiraData, especialmente em intensidade de movimento.
English
Sora's high-motion intensity and long consistent videos have significantly
impacted the field of video generation, attracting unprecedented attention.
However, existing publicly available datasets are inadequate for generating
Sora-like videos, as they mainly contain short videos with low motion intensity
and brief captions. To address these issues, we propose MiraData, a
high-quality video dataset that surpasses previous ones in video duration,
caption detail, motion strength, and visual quality. We curate MiraData from
diverse, manually selected sources and meticulously process the data to obtain
semantically consistent clips. GPT-4V is employed to annotate structured
captions, providing detailed descriptions from four different perspectives
along with a summarized dense caption. To better assess temporal consistency
and motion intensity in video generation, we introduce MiraBench, which
enhances existing benchmarks by adding 3D consistency and tracking-based motion
strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics
covering temporal consistency, motion strength, 3D consistency, visual quality,
text-video alignment, and distribution similarity. To demonstrate the utility
and effectiveness of MiraData, we conduct experiments using our DiT-based video
generation model, MiraDiT. The experimental results on MiraBench demonstrate
the superiority of MiraData, especially in motion strength.