VídeoGuia: Melhorando Modelos de Difusão de Vídeo sem Treinamento Através de um Guia do Professor
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
October 6, 2024
Autores: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI
Resumo
Os modelos de difusão texto-para-imagem (T2I) revolucionaram a criação de conteúdo visual, mas estender essas capacidades para a geração de texto-para-vídeo (T2V) ainda é um desafio, especialmente na preservação da consistência temporal. Métodos existentes que visam melhorar a consistência frequentemente causam compensações como redução na qualidade da imagem e tempo computacional impraticável. Para lidar com essas questões, apresentamos o VideoGuide, um novo framework que aprimora a consistência temporal de modelos T2V pré-treinados sem a necessidade de treinamento adicional ou ajuste fino. Em vez disso, o VideoGuide aproveita qualquer modelo de difusão de vídeo pré-treinado (VDM) ou ele mesmo como guia durante as fases iniciais da inferência, melhorando a qualidade temporal ao interpolar as amostras denoizadas do modelo guia no processo de denoização do modelo de amostragem. O método proposto traz melhorias significativas na consistência temporal e fidelidade da imagem, fornecendo uma solução custo-eficaz e prática que potencializa os pontos fortes de vários modelos de difusão de vídeo. Além disso, demonstramos a destilação prévia, revelando que os modelos base podem alcançar maior coerência de texto ao utilizar a priorização de dados superior do modelo guia por meio do método proposto. Página do Projeto: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content
creation, but extending these capabilities to text-to-video (T2V) generation
remains a challenge, particularly in preserving temporal consistency. Existing
methods that aim to improve consistency often cause trade-offs such as reduced
imaging quality and impractical computational time. To address these issues we
introduce VideoGuide, a novel framework that enhances the temporal consistency
of pretrained T2V models without the need for additional training or
fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model
(VDM) or itself as a guide during the early stages of inference, improving
temporal quality by interpolating the guiding model's denoised samples into the
sampling model's denoising process. The proposed method brings about
significant improvement in temporal consistency and image fidelity, providing a
cost-effective and practical solution that synergizes the strengths of various
video diffusion models. Furthermore, we demonstrate prior distillation,
revealing that base models can achieve enhanced text coherence by utilizing the
superior data prior of the guiding model through the proposed method. Project
Page: http://videoguide2025.github.io/Summary
AI-Generated Summary