Recrear un Video: Traducción de Video a Video Guiada por Texto con Enfoque Zero-Shot
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
June 13, 2023
Autores: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Resumen
Los grandes modelos de difusión de texto a imagen han demostrado una impresionante capacidad para generar imágenes de alta calidad. Sin embargo, al aplicar estos modelos al dominio del video, garantizar la consistencia temporal entre los fotogramas sigue siendo un desafío formidable. Este artículo propone un novedoso marco de trabajo de traducción de video a video guiado por texto en modo zero-shot para adaptar los modelos de imagen a videos. El marco de trabajo consta de dos partes: traducción de fotogramas clave y traducción de video completo. La primera parte utiliza un modelo de difusión adaptado para generar fotogramas clave, aplicando restricciones jerárquicas entre fotogramas para garantizar coherencia en formas, texturas y colores. La segunda parte propaga los fotogramas clave a otros fotogramas mediante emparejamiento de parches con conciencia temporal y fusión de fotogramas. Nuestro marco de trabajo logra consistencia temporal tanto en el estilo global como en la textura local a un bajo costo (sin necesidad de reentrenamiento u optimización). La adaptación es compatible con las técnicas existentes de difusión de imágenes, permitiendo que nuestro marco de trabajo aproveche sus ventajas, como personalizar un sujeto específico con LoRA e introducir guías espaciales adicionales con ControlNet. Los extensos resultados experimentales demuestran la eficacia de nuestro marco de trabajo propuesto frente a los métodos existentes en la generación de videos de alta calidad y temporalmente coherentes.
English
Large text-to-image diffusion models have exhibited impressive proficiency in
generating high-quality images. However, when applying these models to video
domain, ensuring temporal consistency across video frames remains a formidable
challenge. This paper proposes a novel zero-shot text-guided video-to-video
translation framework to adapt image models to videos. The framework includes
two parts: key frame translation and full video translation. The first part
uses an adapted diffusion model to generate key frames, with hierarchical
cross-frame constraints applied to enforce coherence in shapes, textures and
colors. The second part propagates the key frames to other frames with
temporal-aware patch matching and frame blending. Our framework achieves global
style and local texture temporal consistency at a low cost (without re-training
or optimization). The adaptation is compatible with existing image diffusion
techniques, allowing our framework to take advantage of them, such as
customizing a specific subject with LoRA, and introducing extra spatial
guidance with ControlNet. Extensive experimental results demonstrate the
effectiveness of our proposed framework over existing methods in rendering
high-quality and temporally-coherent videos.