TVG: Un Metodo per la Generazione di Video di Transizione Senza Addestramento con Modelli di Diffusione
TVG: A Training-free Transition Video Generation Method with Diffusion Models
August 24, 2024
Autori: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI
Abstract
I video di transizione svolgono un ruolo cruciale nella produzione mediatica, migliorando il flusso e la coerenza delle narrazioni visive. I metodi tradizionali come il morphing spesso mancano di appeal artistico e richiedono competenze specializzate, limitandone l'efficacia. I recenti progressi nella generazione di video basata su modelli di diffusione offrono nuove possibilità per creare transizioni, ma affrontano sfide come la scarsa modellazione delle relazioni inter-fotogramma e i cambiamenti bruschi di contenuto. Proponiamo un nuovo approccio di Generazione di Video di Transizione (TVG) senza addestramento aggiuntivo, utilizzando modelli di diffusione a livello video che affrontano queste limitazioni. Il nostro metodo sfrutta la Regressione Gaussiana (GPR) per modellare le rappresentazioni latenti, garantendo transizioni fluide e dinamiche tra i fotogrammi. Inoltre, introduciamo controlli condizionali basati sull'interpolazione e un'architettura di Fusione Bidirezionale Consapevole della Frequenza (FBiF) per migliorare il controllo temporale e l'affidabilità delle transizioni. Le valutazioni su dataset di benchmark e coppie di immagini personalizzate dimostrano l'efficacia del nostro approccio nella generazione di video di transizione di alta qualità e fluidi. Il codice è disponibile su https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow
and coherence of visual narratives. Traditional methods like morphing often
lack artistic appeal and require specialized skills, limiting their
effectiveness. Recent advances in diffusion model-based video generation offer
new possibilities for creating transitions but face challenges such as poor
inter-frame relationship modeling and abrupt content changes. We propose a
novel training-free Transition Video Generation (TVG) approach using
video-level diffusion models that addresses these limitations without
additional training. Our method leverages Gaussian Process Regression
(GPR) to model latent representations, ensuring smooth and dynamic
transitions between frames. Additionally, we introduce interpolation-based
conditional controls and a Frequency-aware Bidirectional Fusion (FBiF)
architecture to enhance temporal control and transition reliability.
Evaluations of benchmark datasets and custom image pairs demonstrate the
effectiveness of our approach in generating high-quality smooth transition
videos. The code are provided in https://sobeymil.github.io/tvg.com.