TVG: Een Trainingsvrije Methode voor Overgangsvideo-generatie met Diffusiemodellen
TVG: A Training-free Transition Video Generation Method with Diffusion Models
August 24, 2024
Auteurs: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI
Samenvatting
Overgangsvideo's spelen een cruciale rol in mediaproductie, waarbij ze de flow en samenhang van visuele verhalen versterken. Traditionele methoden zoals morphing missen vaak artistieke aantrekkingskracht en vereisen gespecialiseerde vaardigheden, wat hun effectiviteit beperkt. Recente vooruitgang in op diffusiemodellen gebaseerde videogeneratie biedt nieuwe mogelijkheden voor het creëren van overgangen, maar kampt met uitdagingen zoals slechte modellering van inter-frame relaties en abrupte inhoudsveranderingen. Wij stellen een nieuwe trainingsvrije benadering voor, genaamd Transition Video Generation (TVG), die gebruikmaakt van video-level diffusiemodellen om deze beperkingen aan te pakken zonder aanvullende training. Onze methode maakt gebruik van Gaussian Process Regression (GPR) om latente representaties te modelleren, waardoor vloeiende en dynamische overgangen tussen frames worden gegarandeerd. Daarnaast introduceren we interpolatie-gebaseerde conditionele controles en een Frequency-aware Bidirectional Fusion (FBiF) architectuur om temporele controle en overgangsbetrouwbaarheid te verbeteren. Evaluaties van benchmarkdatasets en aangepaste beeldparen tonen de effectiviteit van onze aanpak aan in het genereren van hoogwaardige, vloeiende overgangsvideo's. De code is beschikbaar op https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow
and coherence of visual narratives. Traditional methods like morphing often
lack artistic appeal and require specialized skills, limiting their
effectiveness. Recent advances in diffusion model-based video generation offer
new possibilities for creating transitions but face challenges such as poor
inter-frame relationship modeling and abrupt content changes. We propose a
novel training-free Transition Video Generation (TVG) approach using
video-level diffusion models that addresses these limitations without
additional training. Our method leverages Gaussian Process Regression
(GPR) to model latent representations, ensuring smooth and dynamic
transitions between frames. Additionally, we introduce interpolation-based
conditional controls and a Frequency-aware Bidirectional Fusion (FBiF)
architecture to enhance temporal control and transition reliability.
Evaluations of benchmark datasets and custom image pairs demonstrate the
effectiveness of our approach in generating high-quality smooth transition
videos. The code are provided in https://sobeymil.github.io/tvg.com.Summary
AI-Generated Summary