VSTAR: Generative zeitliche Pflege zur längeren dynamischen Videosynthese
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
March 20, 2024
Autoren: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI
Zusammenfassung
Trotz enormer Fortschritte auf dem Gebiet der Text-zu-Video (T2V)-Synthese haben Open-Source T2V-Diffusionsmodelle Schwierigkeiten, längere Videos mit dynamisch variierenden und sich entwickelnden Inhalten zu generieren. Sie neigen dazu, quasi-statische Videos zu synthetisieren, die die notwendige visuelle Veränderung über die Zeit, wie sie im Textprompt impliziert ist, ignorieren. Gleichzeitig bleibt es oft rechnerisch untragbar, diese Modelle zu skalieren, um eine längere und dynamischere Videosynthese zu ermöglichen. Um diese Herausforderung anzugehen, führen wir das Konzept des Generativen Zeitlichen Pflegens (GTN) ein, bei dem wir darauf abzielen, den generativen Prozess während der Inferenz dynamisch zu verändern, um die Kontrolle über die zeitlichen Dynamiken zu verbessern und die Generierung längerer Videos zu ermöglichen. Wir schlagen eine Methode für GTN vor, genannt VSTAR, die aus zwei Schlüsselkomponenten besteht: 1) Video-Zusammenfassungsanregung (VSP) - automatische Generierung einer Videozusammenfassung basierend auf dem ursprünglichen einzelnen Prompt unter Verwendung von LLMs, die präzise textuelle Anleitungen zu verschiedenen visuellen Zuständen längerer Videos geben, und 2) Zeitliche Aufmerksamkeitsregulierung (TAR) - eine Regularisierungstechnik zur Verfeinerung der zeitlichen Aufmerksamkeitseinheiten der vorab trainierten T2V-Diffusionsmodelle, die die Kontrolle über die Videodynamik ermöglicht. Wir zeigen experimentell die Überlegenheit des vorgeschlagenen Ansatzes bei der Generierung längerer, visuell ansprechender Videos im Vergleich zu bestehenden Open-Source T2V-Modellen. Zusätzlich analysieren wir die zeitlichen Aufmerksamkeitskarten, die mit und ohne VSTAR erstellt wurden, und zeigen die Bedeutung der Anwendung unserer Methode zur Vermeidung der Vernachlässigung der gewünschten visuellen Veränderung über die Zeit auf.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis,
open-sourced T2V diffusion models struggle to generate longer videos with
dynamically varying and evolving content. They tend to synthesize quasi-static
videos, ignoring the necessary visual change-over-time implied in the text
prompt. At the same time, scaling these models to enable longer, more dynamic
video synthesis often remains computationally intractable. To address this
challenge, we introduce the concept of Generative Temporal Nursing (GTN), where
we aim to alter the generative process on the fly during inference to improve
control over the temporal dynamics and enable generation of longer videos. We
propose a method for GTN, dubbed VSTAR, which consists of two key ingredients:
1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis
based on the original single prompt leveraging LLMs, which gives accurate
textual guidance to different visual states of longer videos, and 2) Temporal
Attention Regularization (TAR) - a regularization technique to refine the
temporal attention units of the pre-trained T2V diffusion models, which enables
control over the video dynamics. We experimentally showcase the superiority of
the proposed approach in generating longer, visually appealing videos over
existing open-sourced T2V models. We additionally analyze the temporal
attention maps realized with and without VSTAR, demonstrating the importance of
applying our method to mitigate neglect of the desired visual change over time.Summary
AI-Generated Summary