ViBiDSampler: 양방향 확산 샘플러를 활용한 비디오 보간 향상
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler
October 8, 2024
저자: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI
초록
최근 대규모 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 확산 모델의 발전은 주로 키프레임 보간 측면에서 비디오 생성을 크게 향상시켰습니다. 그러나 현재의 이미지-비디오 확산 모델은 단일 조건 프레임에서 비디오를 생성하는 데 강력하지만, 효과적인 경계 보간을 위해 필수적인 두 프레임(시작 및 끝) 조건 생성을 위해 적응이 필요합니다. 불행히도, 병렬로 시간적으로 전진 및 후진 경로를 융합하는 기존 접근 방식은 종종 오프-매니폴드 문제로 인해 아티팩트를 유발하거나 여러 반복적 재노이징 단계가 필요합니다. 본 연구에서는 이러한 오프-매니폴드 문제를 해결하기 위한 혁신적인 양방향 샘플링 전략을 소개합니다. 이 방법은 광범위한 재노이징이나 세밀한 조정이 필요하지 않으면서도 시작 및 끝 프레임에 조건을 걸고 전진 및 후진 경로를 따라 순차적 샘플링을 적용하여 중간 프레임의 더 일관된 및 매니폴드 상의 생성을 보장합니다. 더불어, 우리는 보간 프로세스를 더욱 향상시키기 위해 고급 가이드 기술인 CFG++ 및 DDS를 통합합니다. 이러한 기술을 통합함으로써 우리의 방법은 최첨단 성능을 달성하며, 키프레임 간에 고품질이고 부드러운 비디오를 효율적으로 생성합니다. 단일 3090 GPU에서 우리의 방법은 195초 만에 1024 x 576 해상도에서 25프레임을 보간할 수 있어, 키프레임 보간을 위한 선도적인 솔루션으로 자리매김하고 있습니다.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V)
diffusion models has greatly enhanced video generation, especially in terms of
keyframe interpolation. However, current image-to-video diffusion models, while
powerful in generating videos from a single conditioning frame, need adaptation
for two-frame (start & end) conditioned generation, which is essential for
effective bounded interpolation. Unfortunately, existing approaches that fuse
temporally forward and backward paths in parallel often suffer from
off-manifold issues, leading to artifacts or requiring multiple iterative
re-noising steps. In this work, we introduce a novel, bidirectional sampling
strategy to address these off-manifold issues without requiring extensive
re-noising or fine-tuning. Our method employs sequential sampling along both
forward and backward paths, conditioned on the start and end frames,
respectively, ensuring more coherent and on-manifold generation of intermediate
frames. Additionally, we incorporate advanced guidance techniques, CFG++ and
DDS, to further enhance the interpolation process. By integrating these, our
method achieves state-of-the-art performance, efficiently generating
high-quality, smooth videos between keyframes. On a single 3090 GPU, our method
can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds,
establishing it as a leading solution for keyframe interpolation.Summary
AI-Generated Summary