FreeLong: 스펙트럴블렌드 시간적 주의 메커니즘을 활용한 학습 없이 가능한 장편 비디오 생성
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
July 29, 2024
저자: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI
초록
비디오 확산 모델은 다양한 비디오 생성 애플리케이션에서 상당한 진전을 이루어 왔습니다. 그러나 긴 비디오 생성 작업을 위한 모델 학습은 상당한 컴퓨팅 및 데이터 자원을 필요로 하며, 이는 긴 비디오 확산 모델 개발에 있어 도전 과제로 작용합니다. 본 논문은 기존의 짧은 비디오 확산 모델(예: 16프레임 비디오로 사전 학습된 모델)을 일관된 긴 비디오 생성(예: 128프레임)으로 확장하기 위한 간단하고 학습이 필요 없는 접근 방식을 탐구합니다. 우리의 예비 관찰에 따르면, 짧은 비디오 확산 모델을 직접 적용하여 긴 비디오를 생성할 경우 심각한 비디오 품질 저하가 발생할 수 있음을 발견했습니다. 추가 조사 결과, 이러한 품질 저하는 주로 긴 비디오에서 고주파수 성분의 왜곡에 기인하며, 이는 공간적 고주파수 성분의 감소와 시간적 고주파수 성분의 증가로 특징지어집니다. 이를 바탕으로, 우리는 디노이징 과정에서 긴 비디오 특징의 주파수 분포를 균형 있게 조절하기 위해 FreeLong이라는 새로운 솔루션을 제안합니다. FreeLong은 전체 비디오 시퀀스를 포함하는 전역 비디오 특징의 저주파수 성분과 더 짧은 프레임 서브시퀀스에 초점을 맞춘 지역 비디오 특징의 고주파수 성분을 혼합합니다. 이 접근 방식은 전역적 일관성을 유지하면서 지역 비디오에서 다양한 고품질의 시공간적 세부 사항을 통합하여, 긴 비디오 생성의 일관성과 충실도를 모두 향상시킵니다. 우리는 여러 기본 비디오 확산 모델에서 FreeLong을 평가하고 상당한 개선을 관찰했습니다. 또한, 우리의 방법은 시각적 일관성과 장면 간의 원활한 전환을 보장하는 일관된 다중 프롬프트 생성을 지원합니다.
English
Video diffusion models have made substantial progress in various video
generation applications. However, training models for long video generation
tasks require significant computational and data resources, posing a challenge
to developing long video diffusion models. This paper investigates a
straightforward and training-free approach to extend an existing short video
diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video
generation (e.g. 128 frames). Our preliminary observation has found that
directly applying the short video diffusion model to generate long videos can
lead to severe video quality degradation. Further investigation reveals that
this degradation is primarily due to the distortion of high-frequency
components in long videos, characterized by a decrease in spatial
high-frequency components and an increase in temporal high-frequency
components. Motivated by this, we propose a novel solution named FreeLong to
balance the frequency distribution of long video features during the denoising
process. FreeLong blends the low-frequency components of global video features,
which encapsulate the entire video sequence, with the high-frequency components
of local video features that focus on shorter subsequences of frames. This
approach maintains global consistency while incorporating diverse and
high-quality spatiotemporal details from local videos, enhancing both the
consistency and fidelity of long video generation. We evaluated FreeLong on
multiple base video diffusion models and observed significant improvements.
Additionally, our method supports coherent multi-prompt generation, ensuring
both visual coherence and seamless transitions between scenes.Summary
AI-Generated Summary