Recrear un Video: Traducción de Video a Video Guiada por Texto con Enfoque Zero-Shot

Resumen

Los grandes modelos de difusión de texto a imagen han demostrado una impresionante capacidad para generar imágenes de alta calidad. Sin embargo, al aplicar estos modelos al dominio del video, garantizar la consistencia temporal entre los fotogramas sigue siendo un desafío formidable. Este artículo propone un novedoso marco de trabajo de traducción de video a video guiado por texto en modo zero-shot para adaptar los modelos de imagen a videos. El marco de trabajo consta de dos partes: traducción de fotogramas clave y traducción de video completo. La primera parte utiliza un modelo de difusión adaptado para generar fotogramas clave, aplicando restricciones jerárquicas entre fotogramas para garantizar coherencia en formas, texturas y colores. La segunda parte propaga los fotogramas clave a otros fotogramas mediante emparejamiento de parches con conciencia temporal y fusión de fotogramas. Nuestro marco de trabajo logra consistencia temporal tanto en el estilo global como en la textura local a un bajo costo (sin necesidad de reentrenamiento u optimización). La adaptación es compatible con las técnicas existentes de difusión de imágenes, permitiendo que nuestro marco de trabajo aproveche sus ventajas, como personalizar un sujeto específico con LoRA e introducir guías espaciales adicionales con ControlNet. Los extensos resultados experimentales demuestran la eficacia de nuestro marco de trabajo propuesto frente a los métodos existentes en la generación de videos de alta calidad y temporalmente coherentes.

English

Large text-to-image diffusion models have exhibited impressive proficiency in generating high-quality images. However, when applying these models to video domain, ensuring temporal consistency across video frames remains a formidable challenge. This paper proposes a novel zero-shot text-guided video-to-video translation framework to adapt image models to videos. The framework includes two parts: key frame translation and full video translation. The first part uses an adapted diffusion model to generate key frames, with hierarchical cross-frame constraints applied to enforce coherence in shapes, textures and colors. The second part propagates the key frames to other frames with temporal-aware patch matching and frame blending. Our framework achieves global style and local texture temporal consistency at a low cost (without re-training or optimization). The adaptation is compatible with existing image diffusion techniques, allowing our framework to take advantage of them, such as customizing a specific subject with LoRA, and introducing extra spatial guidance with ControlNet. Extensive experimental results demonstrate the effectiveness of our proposed framework over existing methods in rendering high-quality and temporally-coherent videos.

Recrear un Video: Traducción de Video a Video Guiada por Texto con Enfoque Zero-Shot

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Resumen

Support