LVD-2M: Um Conjunto de Dados de Vídeo de Longa Duração com Legendas Temporalmente Densas
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
Autores: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
Resumo
A eficácia dos modelos de geração de vídeo depende fortemente da qualidade de seus conjuntos de dados de treinamento. A maioria dos modelos anteriores de geração de vídeo é treinada em pequenos clipes de vídeo, enquanto recentemente tem havido um aumento de interesse em treinar modelos de geração de vídeo longo diretamente em vídeos mais extensos. No entanto, a falta de vídeos longos de alta qualidade impede o avanço da geração de vídeo longo. Para promover a pesquisa em geração de vídeo longo, desejamos um novo conjunto de dados com quatro características essenciais para o treinamento de modelos de geração de vídeo longo: (1) vídeos longos com pelo menos 10 segundos, (2) vídeos longos sem cortes, (3) grande movimento e conteúdos diversos, e (4) legendas temporalmente densas. Para alcançar isso, introduzimos um novo processo de seleção de vídeos longos de alta qualidade e geração de legendas temporalmente densas. Especificamente, definimos um conjunto de métricas para avaliar quantitativamente a qualidade do vídeo, incluindo cortes de cena, graus dinâmicos e qualidade em nível semântico, permitindo-nos filtrar vídeos longos de alta qualidade de uma grande quantidade de vídeos de origem. Posteriormente, desenvolvemos um processo hierárquico de legendagem de vídeo para anotar vídeos longos com legendas temporalmente densas. Com esse processo, curamos o primeiro conjunto de dados de vídeos longos, LVD-2M, composto por 2 milhões de vídeos longos, cada um com mais de 10 segundos e anotados com legendas temporalmente densas. Validamos ainda mais a eficácia do LVD-2M ajustando finamente os modelos de geração de vídeo para gerar vídeos longos com movimentos dinâmicos. Acreditamos que nosso trabalho contribuirá significativamente para futuras pesquisas em geração de vídeo longo.
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary