Factorized-Dreamer: Training eines hochwertigen Video-Generators mit begrenzten und minderwertigen Daten
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data
August 19, 2024
Autoren: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI
Zusammenfassung
Die Generierung von Text-zu-Video (T2V) hat aufgrund ihrer vielfältigen Anwendungen in der Videoerstellung, -bearbeitung, -verbesserung und -übersetzung etc. erhebliche Aufmerksamkeit erlangt. Die Erzeugung von hochwertigen (HQ) Videos ist jedoch äußerst anspruchsvoll aufgrund der vielfältigen und komplexen Bewegungen, die in der realen Welt existieren. Die meisten bestehenden Arbeiten haben Schwierigkeiten, dieses Problem zu lösen, indem sie große Mengen von HQ-Videos sammeln, die für die Gemeinschaft nicht zugänglich sind. In dieser Arbeit zeigen wir, dass öffentlich verfügbare begrenzte und minderwertige (LQ) Daten ausreichen, um einen HQ-Video-Generator ohne erneute Beschriftung oder Feinabstimmung zu trainieren. Wir zerlegen den gesamten T2V-Generierungsprozess in zwei Schritte: die Generierung eines Bildes, das von einer sehr beschreibenden Beschriftung abhängt, und die Synthese des Videos, die von dem generierten Bild und einer prägnanten Beschriftung der Bewegungsdetails abhängt. Insbesondere präsentieren wir Factorized-Dreamer, ein faktorisiertes raumzeitliches Framework mit mehreren entscheidenden Entwürfen für die T2V-Generierung, darunter ein Adapter zur Kombination von Text- und Bild-Einbettungen, ein pixelbewusstes Cross-Attention-Modul zur Erfassung von pixelgenauen Bildinformationen, ein T5-Textencoder zur besseren Erfassung der Bewegungsbeschreibung und ein PredictNet zur Überwachung optischer Flüsse. Darüber hinaus präsentieren wir einen Rauschplan, der eine Schlüsselrolle bei der Sicherung der Qualität und Stabilität der Videogenerierung spielt. Unser Modell senkt die Anforderungen an detaillierte Beschriftungen und HQ-Videos und kann direkt auf begrenzten LQ-Datensätzen mit rauschhaften und knappen Beschriftungen wie WebVid-10M trainiert werden, wodurch die Kosten für die Sammlung von großen Mengen von HQ-Video-Text-Paaren erheblich reduziert werden. Umfangreiche Experimente in einer Vielzahl von T2V- und Bild-zu-Video-Generierungsaufgaben zeigen die Wirksamkeit unseres vorgeschlagenen Factorized-Dreamer. Unsere Quellcodes sind verfügbar unter https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its
wide applications to video generation, editing, enhancement and translation,
\etc. However, high-quality (HQ) video synthesis is extremely challenging
because of the diverse and complex motions existed in real world. Most existing
works struggle to address this problem by collecting large-scale HQ videos,
which are inaccessible to the community. In this work, we show that publicly
available limited and low-quality (LQ) data are sufficient to train a HQ video
generator without recaptioning or finetuning. We factorize the whole T2V
generation process into two steps: generating an image conditioned on a highly
descriptive caption, and synthesizing the video conditioned on the generated
image and a concise caption of motion details. Specifically, we present
Factorized-Dreamer, a factorized spatiotemporal framework with several
critical designs for T2V generation, including an adapter to combine text and
image embeddings, a pixel-aware cross attention module to capture pixel-level
image information, a T5 text encoder to better understand motion description,
and a PredictNet to supervise optical flows. We further present a noise
schedule, which plays a key role in ensuring the quality and stability of video
generation. Our model lowers the requirements in detailed captions and HQ
videos, and can be directly trained on limited LQ datasets with noisy and brief
captions such as WebVid-10M, largely alleviating the cost to collect
large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and
image-to-video generation tasks demonstrate the effectiveness of our proposed
Factorized-Dreamer. Our source codes are available at
https://github.com/yangxy/Factorized-Dreamer/.Summary
AI-Generated Summary