ChatPaper.aiChatPaper

LVD-2M: Ein Video-Datensatz mit langen Aufnahmen und zeitlich dichten Untertiteln.

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

October 14, 2024
Autoren: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI

Zusammenfassung

Die Wirksamkeit von Videogenerierungsmodellen hängt stark von der Qualität ihrer Trainingsdatensätze ab. Die meisten bisherigen Videogenerierungsmodelle werden auf kurzen Videoclips trainiert, während in letzter Zeit ein zunehmendes Interesse an der direkten Schulung von langen Videogenerierungsmodellen an längeren Videos besteht. Der Mangel an hochwertigen langen Videos behindert jedoch den Fortschritt bei der Generierung langer Videos. Um die Forschung in der Generierung langer Videos zu fördern, wünschen wir uns einen neuen Datensatz mit vier Schlüsselfunktionen, die für das Training von langen Videogenerierungsmodellen unerlässlich sind: (1) lange Videos, die mindestens 10 Sekunden abdecken, (2) lange Aufnahmen ohne Schnitte, (3) große Bewegungen und vielfältige Inhalte und (4) zeitlich dichte Untertitel. Um dies zu erreichen, führen wir eine neue Pipeline zur Auswahl hochwertiger Langzeitaufnahmen und zur Generierung zeitlich dichter Untertitel ein. Speziell definieren wir einen Satz von Metriken zur quantitativen Bewertung der Videoqualität, einschließlich Szenenschnitten, dynamischer Grade und semantischer Qualitätsebene, die es uns ermöglichen, hochwertige Langzeitaufnahmen aus einer großen Anzahl von Quellvideos herauszufiltern. Anschließend entwickeln wir eine hierarchische Videountertitelungspipeline, um lange Videos mit zeitlich dichten Untertiteln zu versehen. Mit dieser Pipeline kuratieren wir den ersten Datensatz für Langzeitaufnahmen, LVD-2M, bestehend aus 2 Millionen Langzeitaufnahmen, die jeweils mehr als 10 Sekunden abdecken und mit zeitlich dichten Untertiteln versehen sind. Wir validieren die Wirksamkeit von LVD-2M weiterhin, indem wir Videogenerierungsmodelle feinabstimmen, um lange Videos mit dynamischen Bewegungen zu generieren. Wir glauben, dass unsere Arbeit einen bedeutenden Beitrag zur zukünftigen Forschung in der Generierung langer Videos leisten wird.
English
The efficacy of video generation models heavily depends on the quality of their training datasets. Most previous video generation models are trained on short video clips, while recently there has been increasing interest in training long video generation models directly on longer videos. However, the lack of such high-quality long videos impedes the advancement of long video generation. To promote research in long video generation, we desire a new dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions. To achieve this, we introduce a new pipeline for selecting high-quality long-take videos and generating temporally dense captions. Specifically, we define a set of metrics to quantitatively assess video quality including scene cuts, dynamic degrees, and semantic-level quality, enabling us to filter high-quality long-take videos from a large amount of source videos. Subsequently, we develop a hierarchical video captioning pipeline to annotate long videos with temporally-dense captions. With this pipeline, we curate the first long-take video dataset, LVD-2M, comprising 2 million long-take videos, each covering more than 10 seconds and annotated with temporally dense captions. We further validate the effectiveness of LVD-2M by fine-tuning video generation models to generate long videos with dynamic motions. We believe our work will significantly contribute to future research in long video generation.

Summary

AI-Generated Summary

PDF213November 16, 2024