ChatPaper.aiChatPaper

Feinkörnige Nullschuss-Videostichproben

Fine-gained Zero-shot Video Sampling

July 31, 2024
Autoren: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu
cs.AI

Zusammenfassung

Die Integration einer zeitlichen Dimension in vortrainierte Bildverdünnungsmodelle für die Videogenerierung ist ein gängiger Ansatz. Allerdings ist diese Methode rechenintensiv und erfordert umfangreiche Videodatensätze. Vor allem führt die Heterogenität zwischen Bild- und Videodatensätzen oft zu einem katastrophalen Vergessen der Bildexpertise. Aktuelle Versuche, Videosequenzen direkt aus Bildverdünnungsmodellen zu extrahieren, haben diese Probleme teilweise gemildert. Dennoch können diese Methoden nur kurze Videoclips mit einfachen Bewegungen generieren und sind nicht in der Lage, fein abgestufte Bewegungen oder nicht-gitterförmige Verformungen zu erfassen. In diesem Artikel schlagen wir einen neuartigen Zero-Shot-Video-Sampling-Algorithmus vor, bezeichnet als ZS^2, der in der Lage ist, hochwertige Videoclips direkt aus bestehenden Bildsynthesemethoden wie Stable Diffusion ohne Training oder Optimierung zu sampeln. Speziell nutzt ZS^2 das Abhängigkeitsrauschmodell und die zeitliche Momentum-Aufmerksamkeit, um die Inhaltskonsistenz bzw. Animationskohärenz sicherzustellen. Diese Fähigkeit ermöglicht es, in verwandten Aufgaben wie bedingter und kontextspezialisierter Videogenerierung sowie anweisungsgesteuerter Videobearbeitung herausragende Leistungen zu erbringen. Experimentelle Ergebnisse zeigen, dass ZS^2 eine Spitzenleistung in der Zero-Shot-Videogenerierung erzielt und gelegentlich aktuelle überwachte Methoden übertrifft. Homepage: https://densechen.github.io/zss/.
English
Incorporating a temporal dimension into pretrained image diffusion models for video generation is a prevalent approach. However, this method is computationally demanding and necessitates large-scale video datasets. More critically, the heterogeneity between image and video datasets often results in catastrophic forgetting of the image expertise. Recent attempts to directly extract video snippets from image diffusion models have somewhat mitigated these problems. Nevertheless, these methods can only generate brief video clips with simple movements and fail to capture fine-grained motion or non-grid deformation. In this paper, we propose a novel Zero-Shot video Sampling algorithm, denoted as ZS^2, capable of directly sampling high-quality video clips from existing image synthesis methods, such as Stable Diffusion, without any training or optimization. Specifically, ZS^2 utilizes the dependency noise model and temporal momentum attention to ensure content consistency and animation coherence, respectively. This ability enables it to excel in related tasks, such as conditional and context-specialized video generation and instruction-guided video editing. Experimental results demonstrate that ZS^2 achieves state-of-the-art performance in zero-shot video generation, occasionally outperforming recent supervised methods. Homepage: https://densechen.github.io/zss/.

Summary

AI-Generated Summary

PDF62November 28, 2024