MiraData: Un Dataset Video su Larga Scala con Durate Prolungate e Didascalie Strutturate
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
July 8, 2024
Autori: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI
Abstract
I video ad alta intensità di movimento e di lunga durata coerente di Sora hanno avuto un impatto significativo nel campo della generazione video, attirando un'attenzione senza precedenti. Tuttavia, i dataset pubblicamente disponibili esistenti sono inadeguati per generare video simili a Sora, poiché contengono principalmente video brevi con bassa intensità di movimento e didascalie concise. Per affrontare questi problemi, proponiamo MiraData, un dataset video di alta qualità che supera i precedenti in termini di durata del video, dettaglio delle didascalie, intensità del movimento e qualità visiva. Curiamo MiraData da fonti diverse e selezionate manualmente, elaborando meticolosamente i dati per ottenere clip semanticamente coerenti. GPT-4V viene utilizzato per annotare didascalie strutturate, fornendo descrizioni dettagliate da quattro diverse prospettive insieme a una didascalia densa riassuntiva. Per valutare meglio la coerenza temporale e l'intensità del movimento nella generazione video, introduciamo MiraBench, che migliora i benchmark esistenti aggiungendo metriche di coerenza 3D e di intensità del movimento basate sul tracciamento. MiraBench include 150 prompt di valutazione e 17 metriche che coprono coerenza temporale, intensità del movimento, coerenza 3D, qualità visiva, allineamento testo-video e somiglianza distributiva. Per dimostrare l'utilità e l'efficacia di MiraData, conduciamo esperimenti utilizzando il nostro modello di generazione video basato su DiT, MiraDiT. I risultati sperimentali su MiraBench dimostrano la superiorità di MiraData, specialmente nell'intensità del movimento.
English
Sora's high-motion intensity and long consistent videos have significantly
impacted the field of video generation, attracting unprecedented attention.
However, existing publicly available datasets are inadequate for generating
Sora-like videos, as they mainly contain short videos with low motion intensity
and brief captions. To address these issues, we propose MiraData, a
high-quality video dataset that surpasses previous ones in video duration,
caption detail, motion strength, and visual quality. We curate MiraData from
diverse, manually selected sources and meticulously process the data to obtain
semantically consistent clips. GPT-4V is employed to annotate structured
captions, providing detailed descriptions from four different perspectives
along with a summarized dense caption. To better assess temporal consistency
and motion intensity in video generation, we introduce MiraBench, which
enhances existing benchmarks by adding 3D consistency and tracking-based motion
strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics
covering temporal consistency, motion strength, 3D consistency, visual quality,
text-video alignment, and distribution similarity. To demonstrate the utility
and effectiveness of MiraData, we conduct experiments using our DiT-based video
generation model, MiraDiT. The experimental results on MiraBench demonstrate
the superiority of MiraData, especially in motion strength.