ChatPaper.aiChatPaper

MiraData : Un vaste ensemble de données vidéo avec des durées longues et des légendes structurées

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

July 8, 2024
Auteurs: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI

Résumé

Les vidéos de Sora, caractérisées par une intensité de mouvement élevée et une cohérence temporelle prolongée, ont eu un impact significatif sur le domaine de la génération vidéo, attirant une attention sans précédent. Cependant, les ensembles de données actuellement disponibles publiquement sont insuffisants pour produire des vidéos similaires à celles de Sora, car ils contiennent principalement des vidéos courtes avec une faible intensité de mouvement et des descriptions textuelles brèves. Pour résoudre ces problèmes, nous proposons MiraData, un ensemble de données vidéo de haute qualité qui surpasse les précédents en termes de durée des vidéos, de détail des descriptions, d'intensité de mouvement et de qualité visuelle. Nous avons constitué MiraData à partir de sources variées et soigneusement sélectionnées manuellement, et avons méticuleusement traité les données pour obtenir des clips sémantiquement cohérents. GPT-4V est utilisé pour annoter des descriptions structurées, fournissant des détails approfondis sous quatre perspectives différentes ainsi qu'une description dense résumée. Pour mieux évaluer la cohérence temporelle et l'intensité de mouvement dans la génération vidéo, nous introduisons MiraBench, qui améliore les benchmarks existants en ajoutant des métriques de cohérence 3D et d'intensité de mouvement basées sur le suivi. MiraBench comprend 150 prompts d'évaluation et 17 métriques couvrant la cohérence temporelle, l'intensité de mouvement, la cohérence 3D, la qualité visuelle, l'alignement texte-vidéo et la similarité de distribution. Pour démontrer l'utilité et l'efficacité de MiraData, nous menons des expériences en utilisant notre modèle de génération vidéo basé sur DiT, MiraDiT. Les résultats expérimentaux sur MiraBench montrent la supériorité de MiraData, en particulier en termes d'intensité de mouvement.
English
Sora's high-motion intensity and long consistent videos have significantly impacted the field of video generation, attracting unprecedented attention. However, existing publicly available datasets are inadequate for generating Sora-like videos, as they mainly contain short videos with low motion intensity and brief captions. To address these issues, we propose MiraData, a high-quality video dataset that surpasses previous ones in video duration, caption detail, motion strength, and visual quality. We curate MiraData from diverse, manually selected sources and meticulously process the data to obtain semantically consistent clips. GPT-4V is employed to annotate structured captions, providing detailed descriptions from four different perspectives along with a summarized dense caption. To better assess temporal consistency and motion intensity in video generation, we introduce MiraBench, which enhances existing benchmarks by adding 3D consistency and tracking-based motion strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics covering temporal consistency, motion strength, 3D consistency, visual quality, text-video alignment, and distribution similarity. To demonstrate the utility and effectiveness of MiraData, we conduct experiments using our DiT-based video generation model, MiraDiT. The experimental results on MiraBench demonstrate the superiority of MiraData, especially in motion strength.

Summary

AI-Generated Summary

PDF191November 28, 2024