MiraData: un conjunto de datos de video a gran escala con largas duraciones y leyendas estructuradas
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
July 8, 2024
Autores: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI
Resumen
La intensidad de movimiento alta y los videos largos consistentes de Sora han impactado significativamente en el campo de la generación de videos, atrayendo una atención sin precedentes. Sin embargo, los conjuntos de datos públicamente disponibles existentes son inadecuados para generar videos similares a los de Sora, ya que principalmente contienen videos cortos con baja intensidad de movimiento y breves leyendas. Para abordar estos problemas, proponemos MiraData, un conjunto de datos de video de alta calidad que supera a los anteriores en duración de video, detalle de leyendas, fuerza de movimiento y calidad visual. Curamos MiraData a partir de diversas fuentes seleccionadas manualmente y procesamos meticulosamente los datos para obtener clips semánticamente consistentes. Se emplea GPT-4V para anotar leyendas estructuradas, proporcionando descripciones detalladas desde cuatro perspectivas diferentes junto con una leyenda densa resumida. Para evaluar mejor la consistencia temporal y la intensidad de movimiento en la generación de videos, presentamos MiraBench, que mejora los benchmarks existentes al agregar métricas de consistencia 3D y fuerza de movimiento basada en seguimiento. MiraBench incluye 150 indicaciones de evaluación y 17 métricas que abarcan consistencia temporal, fuerza de movimiento, consistencia 3D, calidad visual, alineación texto-video y similitud de distribución. Para demostrar la utilidad y efectividad de MiraData, realizamos experimentos utilizando nuestro modelo de generación de video basado en DiT, MiraDiT. Los resultados experimentales en MiraBench demuestran la superioridad de MiraData, especialmente en la fuerza de movimiento.
English
Sora's high-motion intensity and long consistent videos have significantly
impacted the field of video generation, attracting unprecedented attention.
However, existing publicly available datasets are inadequate for generating
Sora-like videos, as they mainly contain short videos with low motion intensity
and brief captions. To address these issues, we propose MiraData, a
high-quality video dataset that surpasses previous ones in video duration,
caption detail, motion strength, and visual quality. We curate MiraData from
diverse, manually selected sources and meticulously process the data to obtain
semantically consistent clips. GPT-4V is employed to annotate structured
captions, providing detailed descriptions from four different perspectives
along with a summarized dense caption. To better assess temporal consistency
and motion intensity in video generation, we introduce MiraBench, which
enhances existing benchmarks by adding 3D consistency and tracking-based motion
strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics
covering temporal consistency, motion strength, 3D consistency, visual quality,
text-video alignment, and distribution similarity. To demonstrate the utility
and effectiveness of MiraData, we conduct experiments using our DiT-based video
generation model, MiraDiT. The experimental results on MiraBench demonstrate
the superiority of MiraData, especially in motion strength.Summary
AI-Generated Summary