FreeNoise: Tuning-freie längere Videodiffusion durch Neustrukturierung von Rauschen
FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling
October 23, 2023
Autoren: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI
Zusammenfassung
Mit der Verfügbarkeit groß angelegter Videodatensätze und den Fortschritten bei Diffusionsmodellen hat die textgesteuerte Videogenerierung erhebliche Fortschritte erzielt. Allerdings werden bestehende Videogenerierungsmodelle typischerweise mit einer begrenzten Anzahl von Frames trainiert, was dazu führt, dass sie während der Inferenz keine hochwertigen langen Videos erzeugen können. Darüber hinaus unterstützen diese Modelle nur Einzeltextbedingungen, während reale Szenarien oft Mehrfachtextbedingungen erfordern, da sich der Videoinhalt im Laufe der Zeit ändert. Um diese Herausforderungen zu bewältigen, untersucht diese Studie das Potenzial, die textgesteuerte Fähigkeit zur Generierung längerer Videos unter Berücksichtigung mehrerer Texte zu erweitern. 1) Zunächst analysieren wir die Auswirkungen des initialen Rauschens in Video-Diffusionsmodellen. Basierend auf der Beobachtung des Rauschens schlagen wir FreeNoise vor, ein abstimmungsfreies und zeiteffizientes Paradigma, um die generativen Fähigkeiten vortrainierter Video-Diffusionsmodelle zu verbessern, während die Inhaltskonsistenz erhalten bleibt. Konkret initialisieren wir nicht das Rauschen für alle Frames, sondern planen eine Sequenz von Rauschen für langreichweitige Korrelationen und führen eine zeitliche Aufmerksamkeit über sie durch eine fensterbasierte Funktion aus. 2) Zusätzlich entwerfen wir eine neuartige Methode zur Bewegungseinspritzung, um die Generierung von Videos unter Berücksichtigung mehrerer Textprompts zu unterstützen. Umfangreiche Experimente bestätigen die Überlegenheit unseres Paradigmas bei der Erweiterung der generativen Fähigkeiten von Video-Diffusionsmodellen. Es ist bemerkenswert, dass im Vergleich zur bisher besten Methode, die einen zusätzlichen Zeitaufwand von 255 % verursachte, unser Ansatz nur einen vernachlässigbaren Zeitaufwand von etwa 17 % verursacht. Generierte Videobeispiele sind auf unserer Website verfügbar: http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of
diffusion models, text-driven video generation has achieved substantial
progress. However, existing video generation models are typically trained on a
limited number of frames, resulting in the inability to generate high-fidelity
long videos during inference. Furthermore, these models only support
single-text conditions, whereas real-life scenarios often require multi-text
conditions as the video content changes over time. To tackle these challenges,
this study explores the potential of extending the text-driven capability to
generate longer videos conditioned on multiple texts. 1) We first analyze the
impact of initial noise in video diffusion models. Then building upon the
observation of noise, we propose FreeNoise, a tuning-free and time-efficient
paradigm to enhance the generative capabilities of pretrained video diffusion
models while preserving content consistency. Specifically, instead of
initializing noises for all frames, we reschedule a sequence of noises for
long-range correlation and perform temporal attention over them by window-based
function. 2) Additionally, we design a novel motion injection method to support
the generation of videos conditioned on multiple text prompts. Extensive
experiments validate the superiority of our paradigm in extending the
generative capabilities of video diffusion models. It is noteworthy that
compared with the previous best-performing method which brought about 255%
extra time cost, our method incurs only negligible time cost of approximately
17%. Generated video samples are available at our website:
http://haonanqiu.com/projects/FreeNoise.html.