ChatPaper.aiChatPaper

TVG : Une méthode de génération de vidéos de transition sans entraînement avec des modèles de diffusion

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Auteurs: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Résumé

Les vidéos de transition jouent un rôle crucial dans la production médiatique, améliorant le flux et la cohérence des récits visuels. Les méthodes traditionnelles telles que la morphing manquent souvent d'attrait artistique et nécessitent des compétences spécialisées, limitant leur efficacité. Les récentes avancées dans la génération de vidéos basée sur des modèles de diffusion offrent de nouvelles possibilités pour créer des transitions, mais font face à des défis tels que la modélisation insuffisante des relations inter-trames et les changements de contenu abrupts. Nous proposons une approche novatrice de génération de vidéos de transition (TVG) sans entraînement, utilisant des modèles de diffusion au niveau de la vidéo pour résoudre ces limitations sans nécessiter de formation supplémentaire. Notre méthode exploite la Régression par Processus Gaussien (GPR) pour modéliser les représentations latentes, garantissant des transitions fluides et dynamiques entre les trames. De plus, nous introduisons des contrôles conditionnels basés sur l'interpolation et une architecture de Fusion Bidirectionnelle Sensible à la Fréquence (FBiF) pour améliorer le contrôle temporel et la fiabilité des transitions. Les évaluations sur des ensembles de données de référence et des paires d'images personnalisées démontrent l'efficacité de notre approche dans la génération de vidéos de transition fluides et de haute qualité. Le code est disponible sur https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.

Summary

AI-Generated Summary

PDF142November 16, 2024