ChatPaper.aiChatPaper

TVG: Метод генерации видео переходов без обучения с использованием моделей диффузии

TVG: A Training-free Transition Video Generation Method with Diffusion Models

August 24, 2024
Авторы: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI

Аннотация

Переходные видео играют ключевую роль в медиапроизводстве, улучшая плавность и связность визуальных повествований. Традиционные методы, такие как морфинг, часто лишены художественного привлекательного вида и требуют специализированных навыков, что ограничивает их эффективность. Недавние достижения в генерации видео на основе модели диффузии предлагают новые возможности для создания переходов, но сталкиваются с проблемами, такими как плохое моделирование взаимосвязи между кадрами и резкие изменения контента. Мы предлагаем новый подход к генерации видео переходов без обучения, используя модели диффузии на уровне видео, который решает эти ограничения без дополнительного обучения. Наш метод использует регрессию Гаусса для моделирования латентных представлений, обеспечивая плавные и динамичные переходы между кадрами. Кроме того, мы вводим условные контроли на основе интерполяции и архитектуру Frequency-aware Bidirectional Fusion (FBiF) для улучшения временного контроля и надежности переходов. Оценки на стандартных наборах данных и на специально подобранных парах изображений демонстрируют эффективность нашего подхода в создании высококачественных плавных видео переходов. Код предоставлен на https://sobeymil.github.io/tvg.com.
English
Transition videos play a crucial role in media production, enhancing the flow and coherence of visual narratives. Traditional methods like morphing often lack artistic appeal and require specialized skills, limiting their effectiveness. Recent advances in diffusion model-based video generation offer new possibilities for creating transitions but face challenges such as poor inter-frame relationship modeling and abrupt content changes. We propose a novel training-free Transition Video Generation (TVG) approach using video-level diffusion models that addresses these limitations without additional training. Our method leverages Gaussian Process Regression (GPR) to model latent representations, ensuring smooth and dynamic transitions between frames. Additionally, we introduce interpolation-based conditional controls and a Frequency-aware Bidirectional Fusion (FBiF) architecture to enhance temporal control and transition reliability. Evaluations of benchmark datasets and custom image pairs demonstrate the effectiveness of our approach in generating high-quality smooth transition videos. The code are provided in https://sobeymil.github.io/tvg.com.

Summary

AI-Generated Summary

PDF142November 16, 2024