TVG: 拡散モデルを用いたトレーニング不要の遷移ビデオ生成手法
TVG: A Training-free Transition Video Generation Method with Diffusion Models
August 24, 2024
著者: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI
要旨
トランジションビデオはメディア制作において重要な役割を果たし、視覚的な物語の流れと一貫性を向上させます。モーフィングなどの従来の方法はしばしば芸術的魅力に欠け、専門的なスキルが必要であり、その効果が制限されています。最近の拡散モデルベースのビデオ生成の進歩により、新たなトランジションの作成の可能性が提供されていますが、フレーム間の関係モデリングの不備や急激なコンテンツの変化などの課題に直面しています。私たちは、追加のトレーニングを必要とせずこれらの制限を解決する新しいトランジションビデオ生成(TVG)手法を提案します。当社の手法は、ビデオレベルの拡散モデルを使用し、潜在表現をモデル化するためにガウス過程回帰(GPR)を活用し、フレーム間のスムーズでダイナミックなトランジションを確保します。さらに、補間ベースの条件制御と周波数感知双方向融合(FBiF)アーキテクチャを導入して、時間的な制御とトランジションの信頼性を向上させます。ベンチマークデータセットとカスタム画像ペアの評価により、当社の手法が高品質でスムーズなトランジションビデオを生成する効果を示しました。コードは https://sobeymil.github.io/tvg.com で提供されています。
English
Transition videos play a crucial role in media production, enhancing the flow
and coherence of visual narratives. Traditional methods like morphing often
lack artistic appeal and require specialized skills, limiting their
effectiveness. Recent advances in diffusion model-based video generation offer
new possibilities for creating transitions but face challenges such as poor
inter-frame relationship modeling and abrupt content changes. We propose a
novel training-free Transition Video Generation (TVG) approach using
video-level diffusion models that addresses these limitations without
additional training. Our method leverages Gaussian Process Regression
(GPR) to model latent representations, ensuring smooth and dynamic
transitions between frames. Additionally, we introduce interpolation-based
conditional controls and a Frequency-aware Bidirectional Fusion (FBiF)
architecture to enhance temporal control and transition reliability.
Evaluations of benchmark datasets and custom image pairs demonstrate the
effectiveness of our approach in generating high-quality smooth transition
videos. The code are provided in https://sobeymil.github.io/tvg.com.Summary
AI-Generated Summary