VideoGuía: Mejorando Modelos de Difusión de Video sin Entrenamiento a través de una Guía del Profesor
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
October 6, 2024
Autores: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI
Resumen
Los modelos de difusión texto-a-imagen (T2I) han revolucionado la creación de contenido visual, pero extender estas capacidades a la generación de texto-a-video (T2V) sigue siendo un desafío, especialmente en la preservación de la consistencia temporal. Los métodos existentes que buscan mejorar la consistencia a menudo generan compensaciones como una calidad de imagen reducida y un tiempo computacional poco práctico. Para abordar estos problemas, presentamos VideoGuide, un marco novedoso que mejora la consistencia temporal de los modelos T2V preentrenados sin necesidad de entrenamiento adicional o ajuste fino. En lugar de eso, VideoGuide aprovecha cualquier modelo de difusión de video preentrenado (VDM) o a sí mismo como guía durante las primeras etapas de inferencia, mejorando la calidad temporal mediante la interpolación de las muestras denoiseadas del modelo guía en el proceso de denoising del modelo de muestreo. El método propuesto aporta una mejora significativa en la consistencia temporal y la fidelidad de la imagen, ofreciendo una solución rentable y práctica que potencia las fortalezas de varios modelos de difusión de video. Además, demostramos la destilación previa, revelando que los modelos base pueden lograr una coherencia de texto mejorada al utilizar el conocimiento previo de datos superior del modelo guía a través del método propuesto. Página del Proyecto: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content
creation, but extending these capabilities to text-to-video (T2V) generation
remains a challenge, particularly in preserving temporal consistency. Existing
methods that aim to improve consistency often cause trade-offs such as reduced
imaging quality and impractical computational time. To address these issues we
introduce VideoGuide, a novel framework that enhances the temporal consistency
of pretrained T2V models without the need for additional training or
fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model
(VDM) or itself as a guide during the early stages of inference, improving
temporal quality by interpolating the guiding model's denoised samples into the
sampling model's denoising process. The proposed method brings about
significant improvement in temporal consistency and image fidelity, providing a
cost-effective and practical solution that synergizes the strengths of various
video diffusion models. Furthermore, we demonstrate prior distillation,
revealing that base models can achieve enhanced text coherence by utilizing the
superior data prior of the guiding model through the proposed method. Project
Page: http://videoguide2025.github.io/Summary
AI-Generated Summary