Rerender un Video: Traduzione Video-to-Video Guidata da Testo in Modalità Zero-Shot

Abstract

I grandi modelli di diffusione testo-immagine hanno dimostrato un'impressionante capacità nel generare immagini di alta qualità. Tuttavia, quando si applicano questi modelli al dominio video, garantire la coerenza temporale tra i fotogrammi rimane una sfida formidabile. Questo articolo propone un nuovo framework zero-shot di traduzione video-to-video guidata da testo per adattare i modelli di immagini ai video. Il framework è composto da due parti: traduzione dei fotogrammi chiave e traduzione dell'intero video. La prima parte utilizza un modello di diffusione adattato per generare fotogrammi chiave, con vincoli gerarchici inter-fotogramma applicati per garantire coerenza nelle forme, nelle texture e nei colori. La seconda parte propaga i fotogrammi chiave agli altri fotogrammi attraverso un matching di patch temporalmente consapevole e un blending di fotogrammi. Il nostro framework raggiunge una coerenza temporale globale nello stile e locale nella texture a basso costo (senza ri-addestramento o ottimizzazione). L'adattamento è compatibile con le tecniche esistenti di diffusione di immagini, consentendo al nostro framework di sfruttarle, come personalizzare un soggetto specifico con LoRA e introdurre una guida spaziale aggiuntiva con ControlNet. I risultati sperimentali estesi dimostrano l'efficacia del nostro framework proposto rispetto ai metodi esistenti nel rendering di video di alta qualità e temporalmente coerenti.

English

Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.

Rerender un Video: Traduzione Video-to-Video Guidata da Testo in Modalità Zero-Shot

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Abstract

Support