ChatPaper.aiChatPaper

TVG: Eine trainingsfreie Methode zur Generierung von Übergangsvideos mit Diffusionsmodellen

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Autoren: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Zusammenfassung

Übergangsvideos spielen eine entscheidende Rolle in der Medienproduktion, da sie den Fluss und die Kohärenz visueller Erzählungen verbessern. Traditionelle Methoden wie Morphing weisen oft einen Mangel an künstlerischer Anziehungskraft auf und erfordern spezialisierte Fähigkeiten, was ihre Wirksamkeit einschränkt. Die jüngsten Fortschritte in der videobasierten Generierung von Diffusionsmodellen bieten neue Möglichkeiten zur Erstellung von Übergängen, stehen jedoch vor Herausforderungen wie der unzureichenden Modellierung von Inter-Frame-Beziehungen und abrupten Inhaltsänderungen. Wir schlagen einen neuartigen, trainingsfreien Ansatz zur Generierung von Übergangsvideos (TVG) vor, der auf Videolevel-Diffusionsmodellen basiert und diese Einschränkungen ohne zusätzliches Training angeht. Unsere Methode nutzt die Gaussian Process Regression (GPR) zur Modellierung latenter Darstellungen, um so für reibungslose und dynamische Übergänge zwischen Frames zu sorgen. Darüber hinaus führen wir interpolationsbasierte bedingte Steuerungen und eine Frequency-aware Bidirectional Fusion (FBiF)-Architektur ein, um die zeitliche Steuerung und die Zuverlässigkeit der Übergänge zu verbessern. Evaluierungen anhand von Benchmark-Datensätzen und benutzerdefinierten Bildpaaren zeigen die Wirksamkeit unseres Ansatzes bei der Erzeugung hochwertiger, reibungsloser Übergangsvideos. Der Code ist verfügbar unter https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.

Summary

AI-Generated Summary

PDF142November 16, 2024