LVD-2M: Набор данных видео с длинными съемками и временно плотными подписями
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
Авторы: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
Аннотация
Эффективность моделей генерации видео в значительной степени зависит от качества их обучающих наборов данных. Большинство предыдущих моделей генерации видео обучались на коротких видеороликах, однако в последнее время возрос интерес к обучению длинных моделей генерации видео напрямую на более длинных видеороликах. Однако отсутствие высококачественных длинных видеороликов затрудняет развитие генерации длинных видео. Для стимулирования исследований в области генерации длинных видео мы стремимся к созданию нового набора данных с четырьмя ключевыми особенностями, необходимыми для обучения моделей генерации длинных видео: (1) длинные видеоролики, длительностью не менее 10 секунд, (2) длинные видеоролики без монтажа, (3) большое движение и разнообразные содержание, и (4) временно плотные подписи. Для достижения этой цели мы представляем новый пайплайн для выбора высококачественных длинных видеороликов и создания временно плотных подписей. Конкретно, мы определяем набор метрик для количественной оценки качества видео, включая сценические переходы, степень динамики и качество на семантическом уровне, что позволяет нам отфильтровать высококачественные длинные видеоролики из большого количества исходных видео. Впоследствии мы разрабатываем иерархический пайплайн для подписи видеороликов временно плотными подписями. С помощью этого пайплайна мы создаем первый набор данных длинных видеороликов, LVD-2M, включающий 2 миллиона длинных видеороликов без монтажа, каждый длительностью более 10 секунд и аннотированный временно плотными подписями. Мы также подтверждаем эффективность LVD-2M путем дообучения моделей генерации видео для создания длинных видеороликов с динамичными движениями. Мы уверены, что наша работа значительно внесет вклад в будущие исследования в области генерации длинных видео.
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary