ChatPaper.aiChatPaper

TVG: Um Método de Geração de Vídeo de Transição sem Treinamento com Modelos de Difusão

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Autores: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Resumo

Os vídeos de transição desempenham um papel crucial na produção de mídia, aprimorando o fluxo e a coerência das narrativas visuais. Métodos tradicionais como morphing frequentemente carecem de apelo artístico e exigem habilidades especializadas, limitando sua eficácia. Avanços recentes na geração de vídeos baseada em modelos de difusão oferecem novas possibilidades para criar transições, mas enfrentam desafios como modelagem pobre de relacionamentos entre quadros e mudanças abruptas de conteúdo. Propomos uma abordagem inovadora de Geração de Vídeo de Transição (TVG) sem treinamento, utilizando modelos de difusão em nível de vídeo que abordam essas limitações sem treinamento adicional. Nosso método aproveita a Regressão de Processo Gaussiano (GPR) para modelar representações latentes, garantindo transições suaves e dinâmicas entre quadros. Além disso, introduzimos controles condicionais baseados em interpolação e uma arquitetura de Fusão Bidirecional Sensível à Frequência (FBiF) para aprimorar o controle temporal e a confiabilidade da transição. Avaliações em conjuntos de dados de referência e pares de imagens personalizadas demonstram a eficácia de nossa abordagem na geração de vídeos de transição suaves de alta qualidade. O código está disponível em https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.

Summary

AI-Generated Summary

PDF142November 16, 2024