ChatPaper.aiChatPaper

VidGen-1M: Um Conjunto de Dados em Grande Escala para Geração de Vídeo a Partir de Texto

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

August 5, 2024
Autores: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI

Resumo

A qualidade dos pares vídeo-texto determina fundamentalmente o limite superior dos modelos de texto-para-vídeo. Atualmente, os conjuntos de dados usados para treinar esses modelos apresentam deficiências significativas, incluindo baixa consistência temporal, legendas de baixa qualidade, qualidade de vídeo inferior e distribuição desequilibrada de dados. O processo predominante de curadoria de vídeos, que depende de modelos de imagem para marcação e curadoria baseada em regras manuais, resulta em uma carga computacional alta e deixa para trás dados não limpos. Como resultado, há uma falta de conjuntos de dados de treinamento apropriados para modelos de texto-para-vídeo. Para resolver esse problema, apresentamos o VidGen-1M, um conjunto de dados de treinamento superior para modelos de texto-para-vídeo. Produzido por meio de uma estratégia de curadoria de grosso a fino, este conjunto de dados garante vídeos de alta qualidade e legendas detalhadas com excelente consistência temporal. Quando utilizado para treinar o modelo de geração de vídeo, este conjunto de dados resultou em resultados experimentais que superam os obtidos com outros modelos.
English
The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.

Summary

AI-Generated Summary

PDF154November 28, 2024