ChatPaper.aiChatPaper

VideoGuida: Miglioramento dei Modelli di Diffusione Video senza Addestramento Attraverso una Guida dell'Insegnante

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

October 6, 2024
Autori: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI

Abstract

I modelli di diffusione testo-immagine (T2I) hanno rivoluzionato la creazione di contenuti visivi, ma estendere tali capacità alla generazione testo-video (T2V) rimane una sfida, in particolare nel preservare la coerenza temporale. I metodi esistenti che mirano a migliorare la coerenza spesso comportano compromessi come la riduzione della qualità dell'immagine e tempi di calcolo non praticabili. Per affrontare tali problematiche, presentiamo VideoGuide, un nuovo framework che migliora la coerenza temporale dei modelli T2V preaddestrati senza la necessità di ulteriore addestramento o raffinamento. Invece, VideoGuide sfrutta un qualsiasi modello di diffusione video preaddestrato (VDM) o se stesso come guida durante le fasi iniziali dell'inferenza, migliorando la qualità temporale interpolando i campioni denoizzati del modello guida nel processo di denoising del modello di campionamento. Il metodo proposto porta a un significativo miglioramento nella coerenza temporale e nella fedeltà dell'immagine, offrendo una soluzione economica e pratica che sfrutta i punti di forza di vari modelli di diffusione video. Inoltre, dimostriamo la distillazione precedente, rivelando che i modelli di base possono ottenere una maggiore coerenza del testo utilizzando il miglior data prior del modello guida attraverso il metodo proposto. Pagina del Progetto: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/
PDF303November 16, 2024