TVG: 확산 모델을 사용한 훈련 필요 없는 전환 비디오 생성 방법
TVG: A Training-free Transition Video Generation Method with Diffusion Models
August 24, 2024
저자: Rui Zhang, Yaosen Chen, Yuegen Liu, Wei Wang, Xuming Wen, Hongxia Wang
cs.AI
초록
전환 비디오는 미디어 제작에서 중요한 역할을 하며 시각적 서술의 흐름과 일관성을 향상시킵니다. 변형과 같은 전통적인 방법은 종종 예술적 매력이 부족하고 전문 기술이 필요하여 효과가 제한됩니다. 확산 모델 기반 비디오 생성의 최근 발전은 새로운 전환 생성 가능성을 제공하지만 프레임 간 관계 모델링과 콘텐츠 변화의 급격한 문제와 같은 어려움에 직면합니다. 본 연구에서는 추가 교육 없이 이러한 제한 사항을 해결하는 비디오 수준 확산 모델을 활용한 새로운 훈련 무료 전환 비디오 생성(TVG) 방법을 제안합니다. 우리의 방법은 잠재적 표현을 모델링하기 위해 가우시안 프로세스 회귀(GPR)를 활용하여 프레임 간 부드럽고 동적인 전환을 보장합니다. 더불어, 보간 기반 조건 제어 및 주파수 인식 양방향 퓨전(FBiF) 아키텍처를 도입하여 시간적 제어와 전환 신뢰성을 향상시킵니다. 벤치마크 데이터셋 및 사용자 정의 이미지 쌍의 평가를 통해 우리의 방법이 고품질 부드러운 전환 비디오를 생성하는 데 효과적임을 입증합니다. 코드는 https://sobeymil.github.io/tvg.com에서 제공됩니다.
English
Transition videos play a crucial role in media production, enhancing the flow
and coherence of visual narratives. Traditional methods like morphing often
lack artistic appeal and require specialized skills, limiting their
effectiveness. Recent advances in diffusion model-based video generation offer
new possibilities for creating transitions but face challenges such as poor
inter-frame relationship modeling and abrupt content changes. We propose a
novel training-free Transition Video Generation (TVG) approach using
video-level diffusion models that addresses these limitations without
additional training. Our method leverages Gaussian Process Regression
(GPR) to model latent representations, ensuring smooth and dynamic
transitions between frames. Additionally, we introduce interpolation-based
conditional controls and a Frequency-aware Bidirectional Fusion (FBiF)
architecture to enhance temporal control and transition reliability.
Evaluations of benchmark datasets and custom image pairs demonstrate the
effectiveness of our approach in generating high-quality smooth transition
videos. The code are provided in https://sobeymil.github.io/tvg.com.Summary
AI-Generated Summary