MiraData: 장기간 비디오와 구조화된 캡션을 포함한 대규모 비디오 데이터셋
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
July 8, 2024
저자: Xuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan
cs.AI
초록
Sora의 고강도 모션과 긴 일관성 있는 비디오는 비디오 생성 분야에 큰 영향을 미치며 전례 없는 관심을 끌고 있습니다. 그러나 현재 공개된 데이터셋은 짧은 비디오와 낮은 모션 강도, 간단한 캡션으로 구성되어 있어 Sora와 같은 비디오를 생성하기에는 부적합합니다. 이러한 문제를 해결하기 위해, 우리는 MiraData를 제안합니다. MiraData는 비디오 길이, 캡션의 상세함, 모션 강도, 시각적 품질 등에서 기존 데이터셋을 뛰어넘는 고품질 비디오 데이터셋입니다. 우리는 다양한 수동 선택 소스에서 MiraData를 선별하고, 의미적으로 일관된 클립을 얻기 위해 데이터를 세심하게 처리합니다. GPT-4V를 사용하여 구조화된 캡션을 주석 처리하며, 네 가지 다른 관점에서의 상세한 설명과 요약된 밀집 캡션을 제공합니다. 비디오 생성에서 시간적 일관성과 모션 강도를 더 잘 평가하기 위해, 우리는 MiraBench를 도입했습니다. MiraBench는 기존 벤치마크를 강화하여 3D 일관성과 추적 기반 모션 강도 메트릭을 추가합니다. MiraBench는 150개의 평가 프롬프트와 17개의 메트릭을 포함하며, 시간적 일관성, 모션 강도, 3D 일관성, 시각적 품질, 텍스트-비디오 정렬, 분포 유사성을 다룹니다. MiraData의 유용성과 효과를 입증하기 위해, 우리는 DiT 기반 비디오 생성 모델인 MiraDiT를 사용하여 실험을 진행했습니다. MiraBench에서의 실험 결과는 MiraData의 우수성을 보여주며, 특히 모션 강도에서 두드러진 성과를 나타냈습니다.
English
Sora's high-motion intensity and long consistent videos have significantly
impacted the field of video generation, attracting unprecedented attention.
However, existing publicly available datasets are inadequate for generating
Sora-like videos, as they mainly contain short videos with low motion intensity
and brief captions. To address these issues, we propose MiraData, a
high-quality video dataset that surpasses previous ones in video duration,
caption detail, motion strength, and visual quality. We curate MiraData from
diverse, manually selected sources and meticulously process the data to obtain
semantically consistent clips. GPT-4V is employed to annotate structured
captions, providing detailed descriptions from four different perspectives
along with a summarized dense caption. To better assess temporal consistency
and motion intensity in video generation, we introduce MiraBench, which
enhances existing benchmarks by adding 3D consistency and tracking-based motion
strength metrics. MiraBench includes 150 evaluation prompts and 17 metrics
covering temporal consistency, motion strength, 3D consistency, visual quality,
text-video alignment, and distribution similarity. To demonstrate the utility
and effectiveness of MiraData, we conduct experiments using our DiT-based video
generation model, MiraDiT. The experimental results on MiraBench demonstrate
the superiority of MiraData, especially in motion strength.Summary
AI-Generated Summary