ViBiDSampler: Verbesserung der Videointerpolation unter Verwendung eines bidirektionalen Diffusionssamplers
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler
October 8, 2024
Autoren: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI
Zusammenfassung
In jüngster Zeit hat der Fortschritt bei groß angelegten Text-zu-Video (T2V) und Bild-zu-Video (I2V) Diffusionsmodellen die Videogenerierung erheblich verbessert, insbesondere im Hinblick auf die Zwischenbildinterpolation. Allerdings benötigen aktuelle Bild-zu-Video Diffusionsmodelle, obwohl sie leistungsstark sind bei der Generierung von Videos aus einem einzelnen Konditionsbild, Anpassungen für die Generierung unter Konditionen von zwei Bildern (Start & Ende), was für eine effektive begrenzte Interpolation unerlässlich ist. Leider leiden bestehende Ansätze, die zeitlich vorwärts und rückwärts verlaufende Pfade parallel verschmelzen, oft unter Off-Manifold-Problemen, die zu Artefakten führen oder mehrere iterative Re-Rauschschritte erfordern. In dieser Arbeit stellen wir eine neuartige, bidirektionale Abtaststrategie vor, um diese Off-Manifold-Probleme zu lösen, ohne umfangreiche Re-Rausch- oder Feinabstimmungsschritte zu benötigen. Unsere Methode verwendet sequentielles Abtasten entlang sowohl vorwärts als auch rückwärts verlaufender Pfade, konditioniert auf die Start- und Endbilder, um eine kohärentere und on-Manifold-Generierung der Zwischenbilder sicherzustellen. Darüber hinaus integrieren wir fortgeschrittene Anleitungstechniken, CFG++ und DDS, um den Interpolationsprozess weiter zu verbessern. Durch die Integration dieser Techniken erreicht unsere Methode eine Spitzenleistung, indem sie effizient hochwertige, flüssige Videos zwischen Schlüsselbildern generiert. Auf einer einzelnen 3090 GPU kann unsere Methode in nur 195 Sekunden 25 Bilder bei einer Auflösung von 1024 x 576 interpolieren, was sie zu einer führenden Lösung für die Zwischenbildinterpolation macht.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V)
diffusion models has greatly enhanced video generation, especially in terms of
keyframe interpolation. However, current image-to-video diffusion models, while
powerful in generating videos from a single conditioning frame, need adaptation
for two-frame (start & end) conditioned generation, which is essential for
effective bounded interpolation. Unfortunately, existing approaches that fuse
temporally forward and backward paths in parallel often suffer from
off-manifold issues, leading to artifacts or requiring multiple iterative
re-noising steps. In this work, we introduce a novel, bidirectional sampling
strategy to address these off-manifold issues without requiring extensive
re-noising or fine-tuning. Our method employs sequential sampling along both
forward and backward paths, conditioned on the start and end frames,
respectively, ensuring more coherent and on-manifold generation of intermediate
frames. Additionally, we incorporate advanced guidance techniques, CFG++ and
DDS, to further enhance the interpolation process. By integrating these, our
method achieves state-of-the-art performance, efficiently generating
high-quality, smooth videos between keyframes. On a single 3090 GPU, our method
can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds,
establishing it as a leading solution for keyframe interpolation.Summary
AI-Generated Summary