ChatPaper.aiChatPaper

TVG: Een Trainingsvrije Methode voor Overgangsvideo-generatie met Diffusiemodellen

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Auteurs: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Samenvatting

Overgangsvideo's spelen een cruciale rol in mediaproductie, waarbij ze de flow en samenhang van visuele verhalen versterken. Traditionele methoden zoals morphing missen vaak artistieke aantrekkingskracht en vereisen gespecialiseerde vaardigheden, wat hun effectiviteit beperkt. Recente vooruitgang in op diffusiemodellen gebaseerde videogeneratie biedt nieuwe mogelijkheden voor het creëren van overgangen, maar kampt met uitdagingen zoals slechte modellering van inter-frame relaties en abrupte inhoudsveranderingen. Wij stellen een nieuwe trainingsvrije benadering voor, genaamd Transition Video Generation (TVG), die gebruikmaakt van video-level diffusiemodellen om deze beperkingen aan te pakken zonder aanvullende training. Onze methode maakt gebruik van Gaussian Process Regression (GPR) om latente representaties te modelleren, waardoor vloeiende en dynamische overgangen tussen frames worden gegarandeerd. Daarnaast introduceren we interpolatie-gebaseerde conditionele controles en een Frequency-aware Bidirectional Fusion (FBiF) architectuur om temporele controle en overgangsbetrouwbaarheid te verbeteren. Evaluaties van benchmarkdatasets en aangepaste beeldparen tonen de effectiviteit van onze aanpak aan in het genereren van hoogwaardige, vloeiende overgangsvideo's. De code is beschikbaar op https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.

Summary

AI-Generated Summary

PDF142November 16, 2024