Rerender A Video: Null-Shot-Textgesteuerte Video-zu-Video-Übersetzung
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
June 13, 2023
Autoren: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Zusammenfassung
Große Text-zu-Bild-Diffusionsmodelle haben beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Bilder gezeigt. Wenn diese Modelle jedoch auf den Videobereich angewendet werden, bleibt die Sicherstellung der zeitlichen Konsistenz über Videobilder hinweg eine große Herausforderung. Dieses Papier schlägt ein neuartiges Zero-Shot-Text-geführtes Video-zu-Video-Übersetzungsframework vor, um Bildmodelle für Videos anzupassen. Das Framework besteht aus zwei Teilen: Schlüsselbild-Übersetzung und vollständige Video-Übersetzung. Der erste Teil verwendet ein angepasstes Diffusionsmodell, um Schlüsselbilder zu erzeugen, wobei hierarchische bildübergreifende Beschränkungen angewendet werden, um Kohärenz in Formen, Texturen und Farben zu gewährleisten. Der zweite Teil überträgt die Schlüsselbilder auf andere Bilder mit zeitlich bewusstem Patch-Matching und Bildverschmelzung. Unser Framework erreicht globale Stil- und lokale Textur-Zeitkonsistenz zu geringen Kosten (ohne Neu-Training oder Optimierung). Die Anpassung ist mit bestehenden Bilddiffusionstechniken kompatibel, was es unserem Framework ermöglicht, diese zu nutzen, wie z.B. die Anpassung eines bestimmten Subjekts mit LoRA und die Einführung zusätzlicher räumlicher Führung mit ControlNet. Umfangreiche experimentelle Ergebnisse demonstrieren die Effektivität unseres vorgeschlagenen Frameworks gegenüber bestehenden Methoden bei der Darstellung hochwertiger und zeitlich kohärenter Videos.
English
Large text-to-image diffusion models have exhibited impressive proficiency in
generating high-quality images. However, when applying these models to video
domain, ensuring temporal consistency across video frames remains a formidable
challenge. This paper proposes a novel zero-shot text-guided video-to-video
translation framework to adapt image models to videos. The framework includes
two parts: key frame translation and full video translation. The first part
uses an adapted diffusion model to generate key frames, with hierarchical
cross-frame constraints applied to enforce coherence in shapes, textures and
colors. The second part propagates the key frames to other frames with
temporal-aware patch matching and frame blending. Our framework achieves global
style and local texture temporal consistency at a low cost (without re-training
or optimization). The adaptation is compatible with existing image diffusion
techniques, allowing our framework to take advantage of them, such as
customizing a specific subject with LoRA, and introducing extra spatial
guidance with ControlNet. Extensive experimental results demonstrate the
effectiveness of our proposed framework over existing methods in rendering
high-quality and temporally-coherent videos.