VideoElevator: Steigerung der Video-Generierungsqualität mit vielseitigen Text-zu-Bild-Diffusionsmodellen
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
Autoren: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
Zusammenfassung
Text-zu-Bild-Diffusionsmodelle (T2I) haben beispiellose Fähigkeiten bei der Erstellung realistischer und ästhetischer Bilder gezeigt. Im Gegensatz dazu hinken Text-zu-Video-Diffusionsmodelle (T2V) immer noch weit hinterher in Bezug auf die Bildqualität und Textausrichtung, aufgrund der unzureichenden Qualität und Quantität der Trainingsvideos. In diesem Paper stellen wir VideoElevator vor, eine trainingsfreie und Plug-and-Play-Methode, die die Leistung von T2V mithilfe der überlegenen Fähigkeiten von T2I verbessert. Im Gegensatz zum herkömmlichen T2V-Sampling (d. h. zeitliche und räumliche Modellierung) zerlegt VideoElevator jeden Probenahmeschritt explizit in zeitliche Bewegungsoptimierung und räumliche Qualitätssteigerung. Speziell verwendet die zeitliche Bewegungsoptimierung verkapselte T2V, um die zeitliche Konsistenz zu verbessern, gefolgt von der Umkehrung zur Rauschverteilung, die von T2I benötigt wird. Anschließend nutzt die räumliche Qualitätssteigerung aufgeblasene T2I, um direkt weniger rauschige Latente vorherzusagen und fügt mehr fotorealistische Details hinzu. Wir haben Experimente unter umfangreichen Anfragen in Kombination verschiedener T2V und T2I durchgeführt. Die Ergebnisse zeigen, dass VideoElevator nicht nur die Leistung von T2V-Baselines mit grundlegendem T2I verbessert, sondern auch die stilistische Videosynthese mit personalisiertem T2I erleichtert. Unser Code ist verfügbar unter https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.