LVD-2M: un dataset di video a lunga durata con didascalie temporalmente dense.
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
Autori: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
Abstract
L'efficacia dei modelli di generazione video dipende fortemente dalla qualità dei loro set di dati di addestramento. La maggior parte dei modelli di generazione video precedenti è stata addestrata su brevi clip video, mentre di recente c'è stato un crescente interesse nell'addestrare modelli di generazione video lunghi direttamente su video più lunghi. Tuttavia, la mancanza di video lunghi di alta qualità ostacola l'avanzamento della generazione di video lunghi. Per promuovere la ricerca nella generazione di video lunghi, desideriamo un nuovo dataset con quattro caratteristiche chiave essenziali per l'addestramento di modelli di generazione video lunghi: (1) video lunghi che coprono almeno 10 secondi, (2) video in un'unica ripresa senza tagli, (3) ampio movimento e contenuti diversi, e (4) didascalie temporalmente dense. Per raggiungere questo obiettivo, introduciamo una nuova pipeline per la selezione di video in un'unica ripresa di alta qualità e la generazione di didascalie temporalmente dense. In particolare, definiamo un insieme di metriche per valutare quantitativamente la qualità del video, inclusi tagli di scena, gradi dinamici e qualità a livello semantico, che ci consentono di filtrare video in un'unica ripresa di alta qualità da una grande quantità di video sorgente. Successivamente, sviluppiamo una pipeline gerarchica di didascalie video per annotare video lunghi con didascalie temporalmente dense. Con questa pipeline, curiamo il primo dataset di video in un'unica ripresa, LVD-2M, composto da 2 milioni di video in un'unica ripresa, ciascuno della durata di più di 10 secondi e annotato con didascalie temporalmente dense. Inoltre, convalidiamo l'efficacia di LVD-2M adattando finemente i modelli di generazione video per generare video lunghi con movimenti dinamici. Crediamo che il nostro lavoro contribuirà significativamente alla futura ricerca nella generazione di video lunghi.
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary