MiraData: крупномасштабный видеодатасет с длительными видео и структурированными подписями
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
July 8, 2024
Авторы: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI
Аннотация
Высокая интенсивность движения и длительные последовательные видеоролики Соры значительно повлияли на область генерации видео, привлекая беспрецедентное внимание. Однако существующие общедоступные наборы данных недостаточны для создания видеороликов в стиле Соры, поскольку они в основном содержат короткие видео с низкой интенсивностью движения и краткими подписями. Для решения этих проблем мы предлагаем MiraData - высококачественный набор данных видео, который превосходит предыдущие по длительности видео, детализации подписей, силе движения и визуальному качеству. Мы составляем MiraData из разнообразных, вручную отобранных источников и тщательно обрабатываем данные, чтобы получить семантически согласованные фрагменты. Мы используем GPT-4V для аннотирования структурированных подписей, предоставляя подробные описания с четырех различных перспектив, а также краткую плотную подпись. Для более точной оценки временной согласованности и интенсивности движения в генерации видео мы представляем MiraBench, который улучшает существующие бенчмарки путем добавления метрик 3D согласованности и силы движения на основе трекинга. MiraBench включает 150 оценочных запросов и 17 метрик, охватывающих временную согласованность, силу движения, 3D согласованность, визуальное качество, соответствие текста и видео, а также сходство распределения. Чтобы продемонстрировать полезность и эффективность MiraData, мы проводим эксперименты с использованием нашей модели генерации видео на основе DiT - MiraDiT. Экспериментальные результаты на MiraBench демонстрируют превосходство MiraData, особенно в силе движения.
English
Sora's high-motion intensity and long consistent videos have significantly
impacted the field of video generation, attracting unprecedented attention.
However, existing publicly available datasets are inadequate for generating
Sora-like videos, as they mainly contain short videos with low motion intensity
and brief captions. To address these issues, we propose MiraData, a
high-quality video dataset that surpasses previous ones in video duration,
caption detail, motion strength, and visual quality. We curate MiraData from
diverse, manually selected sources and meticulously process the data to obtain
semantically consistent clips. GPT-4V is employed to annotate structured
captions, providing detailed descriptions from four different perspectives
along with a summarized dense caption. To better assess temporal consistency
and motion intensity in video generation, we introduce MiraBench, which
enhances existing benchmarks by adding 3D consistency and tracking-based motion
strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics
covering temporal consistency, motion strength, 3D consistency, visual quality,
text-video alignment, and distribution similarity. To demonstrate the utility
and effectiveness of MiraData, we conduct experiments using our DiT-based video
generation model, MiraDiT. The experimental results on MiraBench demonstrate
the superiority of MiraData, especially in motion strength.Summary
AI-Generated Summary