ChatPaper.aiChatPaper

VidGen-1M: Un Dataset su Larga Scala per la Generazione di Video da Testo

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

August 5, 2024
Autori: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI

Abstract

La qualità delle coppie video-testo determina fondamentalmente il limite superiore dei modelli di generazione video da testo. Attualmente, i dataset utilizzati per addestrare questi modelli presentano significative carenze, tra cui bassa coerenza temporale, didascalie di scarsa qualità, qualità video scadente e distribuzione dei dati squilibrata. Il processo prevalente di selezione dei video, che si basa su modelli di immagini per l'assegnazione di tag e su una selezione manuale basata su regole, comporta un elevato carico computazionale e lascia dati non puliti. Di conseguenza, mancano dataset di addestramento adeguati per i modelli di generazione video da testo. Per affrontare questo problema, presentiamo VidGen-1M, un dataset di addestramento superiore per i modelli di generazione video da testo. Prodotto attraverso una strategia di selezione da grossolana a fine, questo dataset garantisce video di alta qualità e didascalie dettagliate con un'eccellente coerenza temporale. Quando utilizzato per addestrare il modello di generazione video, questo dataset ha portato a risultati sperimentali che superano quelli ottenuti con altri modelli.
English
The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.
PDF154November 28, 2024