OpenVid-1M: крупномасштабный высококачественный набор данных для генерации текста в видеоформат.
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
July 2, 2024
Авторы: Kepan Nan, Rui Xie, Penghao Zhou, Tiehan Fan, Zhenheng Yang, Zhijie Chen, Xiang Li, Jian Yang, Ying Tai
cs.AI
Аннотация
Генерация видео по тексту (T2V) недавно привлекла значительное внимание благодаря крупной мульти-модель Sora. Однако генерация T2V по-прежнему сталкивается с двумя важными проблемами: 1) Отсутствие точного открытого исходного высококачественного набора данных. Предыдущие популярные видео-наборы данных, например, WebVid-10M и Panda-70M, либо имеют низкое качество, либо слишком велики для большинства исследовательских учреждений. Поэтому собрать точные высококачественные пары текст-видео для генерации T2V является сложной, но важной задачей. 2) Недостаточное использование текстовой информации. Недавние методы T2V сосредоточены на видео-трансформерах, используя простой модуль внимания на основе кросс-внимания для генерации видео, что не позволяет полностью извлекать семантическую информацию из текстовой подсказки. Для решения этих проблем мы представляем OpenVid-1M, точный высококачественный набор данных с выразительными подписями. Этот открытый сценарий набор данных содержит более 1 миллиона пар текст-видео, способствуя исследованиям по генерации T2V. Кроме того, мы отбираем 433 тыс. видео разрешением 1080p из OpenVid-1M для создания OpenVidHD-0.4M, продвигая генерацию видео высокой четкости. Кроме того, мы предлагаем новый Мульти-модальный Видео Диффузионный Трансформер (MVDiT), способный извлекать как структурную информацию из визуальных токенов, так и семантическую информацию из текстовых токенов. Обширные эксперименты и исследования абляции подтверждают превосходство OpenVid-1M над предыдущими наборами данных и эффективность нашего MVDiT.
English
Text-to-video (T2V) generation has recently garnered significant attention
thanks to the large multi-modality model Sora. However, T2V generation still
faces two important challenges: 1) Lacking a precise open sourced high-quality
dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M,
are either with low quality or too large for most research institutions.
Therefore, it is challenging but crucial to collect a precise high-quality
text-video pairs for T2V generation. 2) Ignoring to fully utilize textual
information. Recent T2V methods have focused on vision transformers, using a
simple cross attention module for video generation, which falls short of
thoroughly extracting semantic information from text prompt. To address these
issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive
captions. This open-scenario dataset contains over 1 million text-video pairs,
facilitating research on T2V generation. Furthermore, we curate 433K 1080p
videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition
video generation. Additionally, we propose a novel Multi-modal Video Diffusion
Transformer (MVDiT) capable of mining both structure information from visual
tokens and semantic information from text tokens. Extensive experiments and
ablation studies verify the superiority of OpenVid-1M over previous datasets
and the effectiveness of our MVDiT.Summary
AI-Generated Summary