MiraData: un conjunto de datos de video a gran escala con largas duraciones y leyendas estructuradas

Resumen

La intensidad de movimiento alta y los videos largos consistentes de Sora han impactado significativamente en el campo de la generación de videos, atrayendo una atención sin precedentes. Sin embargo, los conjuntos de datos públicamente disponibles existentes son inadecuados para generar videos similares a los de Sora, ya que principalmente contienen videos cortos con baja intensidad de movimiento y breves leyendas. Para abordar estos problemas, proponemos MiraData, un conjunto de datos de video de alta calidad que supera a los anteriores en duración de video, detalle de leyendas, fuerza de movimiento y calidad visual. Curamos MiraData a partir de diversas fuentes seleccionadas manualmente y procesamos meticulosamente los datos para obtener clips semánticamente consistentes. Se emplea GPT-4V para anotar leyendas estructuradas, proporcionando descripciones detalladas desde cuatro perspectivas diferentes junto con una leyenda densa resumida. Para evaluar mejor la consistencia temporal y la intensidad de movimiento en la generación de videos, presentamos MiraBench, que mejora los benchmarks existentes al agregar métricas de consistencia 3D y fuerza de movimiento basada en seguimiento. MiraBench incluye 150 indicaciones de evaluación y 17 métricas que abarcan consistencia temporal, fuerza de movimiento, consistencia 3D, calidad visual, alineación texto-video y similitud de distribución. Para demostrar la utilidad y efectividad de MiraData, realizamos experimentos utilizando nuestro modelo de generación de video basado en DiT, MiraDiT. Los resultados experimentales en MiraBench demuestran la superioridad de MiraData, especialmente en la fuerza de movimiento.

English

Sora's high-motion intensity and long consistent videos have significantly impacted the field of video generation, attracting unprecedented attention. However, existing publicly available datasets are inadequate for generating Sora-like videos, as they mainly contain short videos with low motion intensity and brief captions. To address these issues, we propose MiraData, a high-quality video dataset that surpasses previous ones in video duration, caption detail, motion strength, and visual quality. We curate MiraData from diverse, manually selected sources and meticulously process the data to obtain semantically consistent clips. GPT-4V is employed to annotate structured captions, providing detailed descriptions from four different perspectives along with a summarized dense caption. To better assess temporal consistency and motion intensity in video generation, we introduce MiraBench, which enhances existing benchmarks by adding 3D consistency and tracking-based motion strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics covering temporal consistency, motion strength, 3D consistency, visual quality, text-video alignment, and distribution similarity. To demonstrate the utility and effectiveness of MiraData, we conduct experiments using our DiT-based video generation model, MiraDiT. The experimental results on MiraBench demonstrate the superiority of MiraData, especially in motion strength.

MiraData: un conjunto de datos de video a gran escala con largas duraciones y leyendas estructuradas

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

Resumen

Support