FreeLong: Training-freie Langvideoerzeugung mit SpectralBlend Temporale Aufmerksamkeit
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
July 29, 2024
Autoren: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI
Zusammenfassung
Die Modelle für die Diffusion von Videos haben in verschiedenen Anwendungen zur Videoerzeugung erhebliche Fortschritte gemacht. Das Training von Modellen für die Generierung langer Videos erfordert jedoch erhebliche Rechen- und Datenressourcen, was eine Herausforderung für die Entwicklung von langen Video-Diffusionsmodellen darstellt. Diese Arbeit untersucht einen einfachen und trainingsfreien Ansatz, um ein bestehendes kurzes Video-Diffusionsmodell (z. B. vortrainiert auf 16-Bild-Videos) für eine konsistente Generierung langer Videos (z. B. 128 Bilder) zu erweitern. Unsere vorläufige Beobachtung hat ergeben, dass das direkte Anwenden des kurzen Video-Diffusionsmodells zur Generierung langer Videos zu einer erheblichen Verschlechterung der Videoqualität führen kann. Weitere Untersuchungen zeigen, dass diese Verschlechterung hauptsächlich auf die Verzerrung von hochfrequenten Komponenten in langen Videos zurückzuführen ist, die sich durch eine Abnahme der räumlichen hochfrequenten Komponenten und eine Zunahme der zeitlichen hochfrequenten Komponenten auszeichnen. Angeregt durch dies, schlagen wir eine neuartige Lösung namens FreeLong vor, um die Frequenzverteilung der Merkmale langer Videos während des Rauschunterdrückungsprozesses auszugleichen. FreeLong vermischt die niederfrequenten Komponenten globaler Video-Merkmale, die die gesamte Videosequenz umfassen, mit den hochfrequenten Komponenten lokaler Video-Merkmale, die sich auf kürzere Teilsequenzen von Bildern konzentrieren. Dieser Ansatz gewährleistet globale Konsistenz, während er vielfältige und hochwertige räumlich-zeitliche Details aus lokalen Videos integriert, was sowohl die Konsistenz als auch die Treue der Generierung langer Videos verbessert. Wir haben FreeLong an mehreren Basis-Video-Diffusionsmodellen evaluiert und signifikante Verbesserungen festgestellt. Darüber hinaus unterstützt unsere Methode eine kohärente Multi-Prompt-Generierung, die sowohl visuelle Kohärenz als auch nahtlose Übergänge zwischen Szenen gewährleistet.
English
Video diffusion models have made substantial progress in various video
generation applications. However, training models for long video generation
tasks require significant computational and data resources, posing a challenge
to developing long video diffusion models. This paper investigates a
straightforward and training-free approach to extend an existing short video
diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video
generation (e.g. 128 frames). Our preliminary observation has found that
directly applying the short video diffusion model to generate long videos can
lead to severe video quality degradation. Further investigation reveals that
this degradation is primarily due to the distortion of high-frequency
components in long videos, characterized by a decrease in spatial
high-frequency components and an increase in temporal high-frequency
components. Motivated by this, we propose a novel solution named FreeLong to
balance the frequency distribution of long video features during the denoising
process. FreeLong blends the low-frequency components of global video features,
which encapsulate the entire video sequence, with the high-frequency components
of local video features that focus on shorter subsequences of frames. This
approach maintains global consistency while incorporating diverse and
high-quality spatiotemporal details from local videos, enhancing both the
consistency and fidelity of long video generation. We evaluated FreeLong on
multiple base video diffusion models and observed significant improvements.
Additionally, our method supports coherent multi-prompt generation, ensuring
both visual coherence and seamless transitions between scenes.Summary
AI-Generated Summary