Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
December 25, 2023
Autoren: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI
Zusammenfassung
Diffusionsbasierte Text-zu-Video-Generierung hat im vergangenen Jahr beeindruckende Fortschritte erzielt, hinkt jedoch der Text-zu-Bild-Generierung noch hinterher. Ein wesentlicher Grund dafür ist der begrenzte Umfang öffentlich verfügbarer Daten (z. B. 10 Millionen Video-Text-Paare in WebVid10M im Vergleich zu 5 Milliarden Bild-Text-Paaren in LAION), insbesondere angesichts der hohen Kosten für die Videobeschriftung. Stattdessen könnte es weitaus einfacher sein, unmarkierte Clips von Videoplattformen wie YouTube zu sammeln. Ausgehend von dieser Überlegung entwickeln wir ein neuartiges Framework für die Text-zu-Video-Generierung, genannt TF-T2V, das direkt mit textfreien Videos lernen kann. Die zugrunde liegende Idee besteht darin, den Prozess der Textdekodierung von der zeitlichen Modellierung zu trennen. Zu diesem Zweck verwenden wir einen Inhaltszweig und einen Bewegungszweig, die gemeinsam optimiert werden und Gewichte teilen. Im Rahmen dieses Ansatzes untersuchen wir die Auswirkungen einer Verdoppelung des Trainingsdatensatzes (d. h. des textfreien WebVid10M) durch zufällig gesammelte textfreie Videos und stellen erfreulicherweise eine Leistungsverbesserung fest (FID von 9,67 auf 8,19 und FVD von 484 auf 441), was die Skalierbarkeit unseres Ansatzes demonstriert. Wir stellen außerdem fest, dass unser Modell nach der erneuten Einführung einiger Textlabels für das Training eine nachhaltige Leistungssteigerung erzielt (FID von 8,19 auf 7,64 und FVD von 441 auf 366). Schließlich validieren wir die Wirksamkeit und Generalisierbarkeit unserer Ideologie sowohl für die native Text-zu-Video-Generierung als auch für Paradigmen der kompositionellen Videosynthese. Code und Modelle werden unter https://tf-t2v.github.io/ öffentlich verfügbar sein.
English
Diffusion-based text-to-video generation has witnessed impressive progress in
the past year yet still falls behind text-to-image generation. One of the key
reasons is the limited scale of publicly available data (e.g., 10M video-text
pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost
of video captioning. Instead, it could be far easier to collect unlabeled clips
from video platforms like YouTube. Motivated by this, we come up with a novel
text-to-video generation framework, termed TF-T2V, which can directly learn
with text-free videos. The rationale behind is to separate the process of text
decoding from that of temporal modeling. To this end, we employ a content
branch and a motion branch, which are jointly optimized with weights shared.
Following such a pipeline, we study the effect of doubling the scale of
training set (i.e., video-only WebVid10M) with some randomly collected
text-free videos and are encouraged to observe the performance improvement (FID
from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of
our approach. We also find that our model could enjoy sustainable performance
gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some
text labels for training. Finally, we validate the effectiveness and
generalizability of our ideology on both native text-to-video generation and
compositional video synthesis paradigms. Code and models will be publicly
available at https://tf-t2v.github.io/.