ChatPaper.aiChatPaper

TVG: Un Metodo per la Generazione di Video di Transizione Senza Addestramento con Modelli di Diffusione

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Autori: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Abstract

I video di transizione svolgono un ruolo cruciale nella produzione mediatica, migliorando il flusso e la coerenza delle narrazioni visive. I metodi tradizionali come il morphing spesso mancano di appeal artistico e richiedono competenze specializzate, limitandone l'efficacia. I recenti progressi nella generazione di video basata su modelli di diffusione offrono nuove possibilità per creare transizioni, ma affrontano sfide come la scarsa modellazione delle relazioni inter-fotogramma e i cambiamenti bruschi di contenuto. Proponiamo un nuovo approccio di Generazione di Video di Transizione (TVG) senza addestramento aggiuntivo, utilizzando modelli di diffusione a livello video che affrontano queste limitazioni. Il nostro metodo sfrutta la Regressione Gaussiana (GPR) per modellare le rappresentazioni latenti, garantendo transizioni fluide e dinamiche tra i fotogrammi. Inoltre, introduciamo controlli condizionali basati sull'interpolazione e un'architettura di Fusione Bidirezionale Consapevole della Frequenza (FBiF) per migliorare il controllo temporale e l'affidabilità delle transizioni. Le valutazioni su dataset di benchmark e coppie di immagini personalizzate dimostrano l'efficacia del nostro approccio nella generazione di video di transizione di alta qualità e fluidi. Il codice è disponibile su https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.
PDF142November 16, 2024