ChatPaper.aiChatPaper

TVG: Un método de generación de videos de transición sin entrenamiento con modelos de difusión

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Autores: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Resumen

Los videos de transición desempeñan un papel crucial en la producción de medios, mejorando el flujo y la coherencia de las narrativas visuales. Los métodos tradicionales como el morphing a menudo carecen de atractivo artístico y requieren habilidades especializadas, lo que limita su efectividad. Los avances recientes en la generación de videos basada en modelos de difusión ofrecen nuevas posibilidades para crear transiciones, pero enfrentan desafíos como la modelización deficiente de las relaciones entre fotogramas y cambios abruptos de contenido. Proponemos un enfoque novedoso de Generación de Videos de Transición (TVG) sin entrenamiento, utilizando modelos de difusión a nivel de video que abordan estas limitaciones sin necesidad de entrenamiento adicional. Nuestro método aprovecha la Regresión de Procesos Gaussianos (GPR) para modelar representaciones latentes, garantizando transiciones suaves y dinámicas entre fotogramas. Además, introducimos controles condicionales basados en interpolación y una arquitectura de Fusión Bidireccional Consciente de la Frecuencia (FBiF) para mejorar el control temporal y la fiabilidad de las transiciones. Las evaluaciones de conjuntos de datos de referencia y pares de imágenes personalizadas demuestran la efectividad de nuestro enfoque en la generación de videos de transición suaves de alta calidad. El código se proporciona en https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.

Summary

AI-Generated Summary

PDF142November 16, 2024