MiraData: Een grootschalige videodataset met lange duur en gestructureerde bijschriften
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
July 8, 2024
Auteurs: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI
Samenvatting
Sora's hoge bewegingsintensiteit en lange consistente video's hebben een aanzienlijke impact gehad op het gebied van videogeneratie, waardoor ongekende aandacht is ontstaan. Bestaande openbaar beschikbare datasets zijn echter ontoereikend voor het genereren van Sora-achtige video's, omdat ze voornamelijk korte video's bevatten met een lage bewegingsintensiteit en korte bijschriften. Om deze problemen aan te pakken, stellen we MiraData voor, een hoogwaardige videodataset die eerdere datasets overtreft in videoduur, detailniveau van bijschriften, bewegingssterkte en visuele kwaliteit. We hebben MiraData samengesteld uit diverse, handmatig geselecteerde bronnen en hebben de data zorgvuldig verwerkt om semantisch consistente clips te verkrijgen. GPT-4V wordt gebruikt om gestructureerde bijschriften te annoteren, waarbij gedetailleerde beschrijvingen vanuit vier verschillende perspectiven worden gegeven, samen met een samenvattende dichte bijschrift. Om temporele consistentie en bewegingsintensiteit in videogeneratie beter te kunnen beoordelen, introduceren we MiraBench, dat bestaande benchmarks versterkt door 3D-consistentie en op tracking gebaseerde bewegingssterkte-metrics toe te voegen. MiraBench omvat 150 evaluatieprompts en 17 metrics die temporele consistentie, bewegingssterkte, 3D-consistentie, visuele kwaliteit, tekst-video-alignering en distributiegelijkenis bestrijken. Om de bruikbaarheid en effectiviteit van MiraData aan te tonen, voeren we experimenten uit met ons op DiT gebaseerde videogeneratiemodel, MiraDiT. De experimentele resultaten op MiraBench demonstreren de superioriteit van MiraData, met name op het gebied van bewegingssterkte.
English
Sora's high-motion intensity and long consistent videos have significantly
impacted the field of video generation, attracting unprecedented attention.
However, existing publicly available datasets are inadequate for generating
Sora-like videos, as they mainly contain short videos with low motion intensity
and brief captions. To address these issues, we propose MiraData, a
high-quality video dataset that surpasses previous ones in video duration,
caption detail, motion strength, and visual quality. We curate MiraData from
diverse, manually selected sources and meticulously process the data to obtain
semantically consistent clips. GPT-4V is employed to annotate structured
captions, providing detailed descriptions from four different perspectives
along with a summarized dense caption. To better assess temporal consistency
and motion intensity in video generation, we introduce MiraBench, which
enhances existing benchmarks by adding 3D consistency and tracking-based motion
strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics
covering temporal consistency, motion strength, 3D consistency, visual quality,
text-video alignment, and distribution similarity. To demonstrate the utility
and effectiveness of MiraData, we conduct experiments using our DiT-based video
generation model, MiraDiT. The experimental results on MiraBench demonstrate
the superiority of MiraData, especially in motion strength.