Rerender A Video: Null-Shot-Textgesteuerte Video-zu-Video-Übersetzung

Zusammenfassung

Große Text-zu-Bild-Diffusionsmodelle haben beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Bilder gezeigt. Wenn diese Modelle jedoch auf den Videobereich angewendet werden, bleibt die Sicherstellung der zeitlichen Konsistenz über Videobilder hinweg eine große Herausforderung. Dieses Papier schlägt ein neuartiges Zero-Shot-Text-geführtes Video-zu-Video-Übersetzungsframework vor, um Bildmodelle für Videos anzupassen. Das Framework besteht aus zwei Teilen: Schlüsselbild-Übersetzung und vollständige Video-Übersetzung. Der erste Teil verwendet ein angepasstes Diffusionsmodell, um Schlüsselbilder zu erzeugen, wobei hierarchische bildübergreifende Beschränkungen angewendet werden, um Kohärenz in Formen, Texturen und Farben zu gewährleisten. Der zweite Teil überträgt die Schlüsselbilder auf andere Bilder mit zeitlich bewusstem Patch-Matching und Bildverschmelzung. Unser Framework erreicht globale Stil- und lokale Textur-Zeitkonsistenz zu geringen Kosten (ohne Neu-Training oder Optimierung). Die Anpassung ist mit bestehenden Bilddiffusionstechniken kompatibel, was es unserem Framework ermöglicht, diese zu nutzen, wie z.B. die Anpassung eines bestimmten Subjekts mit LoRA und die Einführung zusätzlicher räumlicher Führung mit ControlNet. Umfangreiche experimentelle Ergebnisse demonstrieren die Effektivität unseres vorgeschlagenen Frameworks gegenüber bestehenden Methoden bei der Darstellung hochwertiger und zeitlich kohärenter Videos.

English

Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.

Rerender A Video: Null-Shot-Textgesteuerte Video-zu-Video-Übersetzung

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Zusammenfassung

Support