OpenVid-1M: 텍스트-투-비디오 생성을 위한 대규모 고품질 데이터셋
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
저자: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
초록
텍스트-투-비디오(T2V) 생성은 최근 대규모 멀티모달 모델인 Sora 덕분에 상당한 주목을 받고 있습니다. 그러나 T2V 생성은 여전히 두 가지 중요한 과제에 직면해 있습니다: 1) 정밀한 오픈 소스 고품질 데이터셋의 부족. 이전에 널리 사용되던 비디오 데이터셋들, 예를 들어 WebVid-10M과 Panda-70M은 품질이 낮거나 대부분의 연구 기관에 너무 큰 규모입니다. 따라서 T2V 생성을 위한 정밀한 고품질 텍스트-비디오 쌍을 수집하는 것은 어렵지만 매우 중요합니다. 2) 텍스트 정보를 충분히 활용하지 못함. 최근의 T2V 방법들은 비전 트랜스포머에 초점을 맞추고, 비디오 생성을 위해 간단한 교차 주의 모듈을 사용함으로써 텍스트 프롬프트에서 의미 정보를 철저히 추출하는 데 부족함이 있습니다. 이러한 문제를 해결하기 위해, 우리는 표현력 있는 캡션을 가진 정밀한 고품질 데이터셋인 OpenVid-1M을 소개합니다. 이 오픈 시나리오 데이터셋은 100만 개 이상의 텍스트-비디오 쌍을 포함하여 T2V 생성 연구를 촉진합니다. 더 나아가, 우리는 OpenVid-1M에서 433K개의 1080p 비디오를 선별하여 OpenVidHD-0.4M을 만들어 고화질 비디오 생성을 발전시켰습니다. 또한, 우리는 시각적 토큰에서 구조 정보와 텍스트 토큰에서 의미 정보를 모두 추출할 수 있는 새로운 멀티모달 비디오 확산 트랜스포머(MVDiT)를 제안합니다. 광범위한 실험과 절제 연구를 통해 OpenVid-1M이 이전 데이터셋보다 우수함과 우리의 MVDiT의 효과를 검증했습니다.
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.Summary
AI-Generated Summary