ChatPaper.aiChatPaper

MiraData: Ein umfangreiches Videodatenset mit langen Dauer und strukturierten Untertiteln.

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

July 8, 2024
Autoren: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI

Zusammenfassung

Die hohe Bewegungsintensität und die langen, konsistenten Videos von Sora haben signifikanten Einfluss auf das Gebiet der Videogenerierung gehabt und eine beispiellose Aufmerksamkeit erregt. Allerdings sind die vorhandenen öffentlich verfügbaren Datensätze unzureichend für die Generierung von Sora-ähnlichen Videos, da sie hauptsächlich kurze Videos mit geringer Bewegungsintensität und knappen Bildunterschriften enthalten. Um diesen Problemen zu begegnen, schlagen wir MiraData vor, einen qualitativ hochwertigen Videodatensatz, der frühere Datensätze in Bezug auf Videodauer, Detailreichtum der Bildunterschriften, Bewegungsstärke und visuelle Qualität übertrifft. Wir kuratieren MiraData aus verschiedenen, manuell ausgewählten Quellen und verarbeiten die Daten sorgfältig, um semantisch konsistente Clips zu erhalten. GPT-4V wird eingesetzt, um strukturierte Bildunterschriften zu annotieren, die detaillierte Beschreibungen aus vier verschiedenen Perspektiven sowie eine zusammengefasste dichte Bildunterschrift bieten. Um die zeitliche Konsistenz und Bewegungsintensität bei der Videogenerierung besser zu bewerten, führen wir MiraBench ein, das bestehende Benchmarks durch die Hinzufügung von 3D-Konsistenz- und Tracking-basierten Bewegungsstärkemessungen verbessert. MiraBench umfasst 150 Bewertungsanfragen und 17 Metriken, die die zeitliche Konsistenz, Bewegungsstärke, 3D-Konsistenz, visuelle Qualität, Text-Video-Alignment und Verteilungsähnlichkeit abdecken. Um den Nutzen und die Wirksamkeit von MiraData zu demonstrieren, führen wir Experimente mit unserem auf DiT basierenden Videogenerierungsmodell, MiraDiT, durch. Die experimentellen Ergebnisse auf MiraBench zeigen die Überlegenheit von MiraData, insbesondere in Bezug auf die Bewegungsstärke.
English
Sora's high-motion intensity and long consistent videos have significantly impacted the field of video generation, attracting unprecedented attention. However, existing publicly available datasets are inadequate for generating Sora-like videos, as they mainly contain short videos with low motion intensity and brief captions. To address these issues, we propose MiraData, a high-quality video dataset that surpasses previous ones in video duration, caption detail, motion strength, and visual quality. We curate MiraData from diverse, manually selected sources and meticulously process the data to obtain semantically consistent clips. GPT-4V is employed to annotate structured captions, providing detailed descriptions from four different perspectives along with a summarized dense caption. To better assess temporal consistency and motion intensity in video generation, we introduce MiraBench, which enhances existing benchmarks by adding 3D consistency and tracking-based motion strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics covering temporal consistency, motion strength, 3D consistency, visual quality, text-video alignment, and distribution similarity. To demonstrate the utility and effectiveness of MiraData, we conduct experiments using our DiT-based video generation model, MiraDiT. The experimental results on MiraBench demonstrate the superiority of MiraData, especially in motion strength.

Summary

AI-Generated Summary

PDF191November 28, 2024