ChatPaper.aiChatPaper

ViBiDSampler: Verbesserung der Videointerpolation unter Verwendung eines bidirektionalen Diffusionssamplers

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler

October 8, 2024
Autoren: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI

Zusammenfassung

In jüngster Zeit hat der Fortschritt bei groß angelegten Text-zu-Video (T2V) und Bild-zu-Video (I2V) Diffusionsmodellen die Videogenerierung erheblich verbessert, insbesondere im Hinblick auf die Zwischenbildinterpolation. Allerdings benötigen aktuelle Bild-zu-Video Diffusionsmodelle, obwohl sie leistungsstark sind bei der Generierung von Videos aus einem einzelnen Konditionsbild, Anpassungen für die Generierung unter Konditionen von zwei Bildern (Start & Ende), was für eine effektive begrenzte Interpolation unerlässlich ist. Leider leiden bestehende Ansätze, die zeitlich vorwärts und rückwärts verlaufende Pfade parallel verschmelzen, oft unter Off-Manifold-Problemen, die zu Artefakten führen oder mehrere iterative Re-Rauschschritte erfordern. In dieser Arbeit stellen wir eine neuartige, bidirektionale Abtaststrategie vor, um diese Off-Manifold-Probleme zu lösen, ohne umfangreiche Re-Rausch- oder Feinabstimmungsschritte zu benötigen. Unsere Methode verwendet sequentielles Abtasten entlang sowohl vorwärts als auch rückwärts verlaufender Pfade, konditioniert auf die Start- und Endbilder, um eine kohärentere und on-Manifold-Generierung der Zwischenbilder sicherzustellen. Darüber hinaus integrieren wir fortgeschrittene Anleitungstechniken, CFG++ und DDS, um den Interpolationsprozess weiter zu verbessern. Durch die Integration dieser Techniken erreicht unsere Methode eine Spitzenleistung, indem sie effizient hochwertige, flüssige Videos zwischen Schlüsselbildern generiert. Auf einer einzelnen 3090 GPU kann unsere Methode in nur 195 Sekunden 25 Bilder bei einer Auflösung von 1024 x 576 interpolieren, was sie zu einer führenden Lösung für die Zwischenbildinterpolation macht.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V) diffusion models has greatly enhanced video generation, especially in terms of keyframe interpolation. However, current image-to-video diffusion models, while powerful in generating videos from a single conditioning frame, need adaptation for two-frame (start & end) conditioned generation, which is essential for effective bounded interpolation. Unfortunately, existing approaches that fuse temporally forward and backward paths in parallel often suffer from off-manifold issues, leading to artifacts or requiring multiple iterative re-noising steps. In this work, we introduce a novel, bidirectional sampling strategy to address these off-manifold issues without requiring extensive re-noising or fine-tuning. Our method employs sequential sampling along both forward and backward paths, conditioned on the start and end frames, respectively, ensuring more coherent and on-manifold generation of intermediate frames. Additionally, we incorporate advanced guidance techniques, CFG++ and DDS, to further enhance the interpolation process. By integrating these, our method achieves state-of-the-art performance, efficiently generating high-quality, smooth videos between keyframes. On a single 3090 GPU, our method can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds, establishing it as a leading solution for keyframe interpolation.

Summary

AI-Generated Summary

PDF132November 16, 2024