ChatPaper.aiChatPaper

VídeoGuia: Melhorando Modelos de Difusão de Vídeo sem Treinamento Através de um Guia do Professor

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

October 6, 2024
Autores: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI

Resumo

Os modelos de difusão texto-para-imagem (T2I) revolucionaram a criação de conteúdo visual, mas estender essas capacidades para a geração de texto-para-vídeo (T2V) ainda é um desafio, especialmente na preservação da consistência temporal. Métodos existentes que visam melhorar a consistência frequentemente causam compensações como redução na qualidade da imagem e tempo computacional impraticável. Para lidar com essas questões, apresentamos o VideoGuide, um novo framework que aprimora a consistência temporal de modelos T2V pré-treinados sem a necessidade de treinamento adicional ou ajuste fino. Em vez disso, o VideoGuide aproveita qualquer modelo de difusão de vídeo pré-treinado (VDM) ou ele mesmo como guia durante as fases iniciais da inferência, melhorando a qualidade temporal ao interpolar as amostras denoizadas do modelo guia no processo de denoização do modelo de amostragem. O método proposto traz melhorias significativas na consistência temporal e fidelidade da imagem, fornecendo uma solução custo-eficaz e prática que potencializa os pontos fortes de vários modelos de difusão de vídeo. Além disso, demonstramos a destilação prévia, revelando que os modelos base podem alcançar maior coerência de texto ao utilizar a priorização de dados superior do modelo guia por meio do método proposto. Página do Projeto: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/

Summary

AI-Generated Summary

PDF303November 16, 2024