ChatPaper.aiChatPaper

FreeLong: Генерация длинных видео без обучения с использованием SpectralBlend и временного внимания.

FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention

July 29, 2024
Авторы: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI

Аннотация

Модели диффузии видео значительно продвинулись в различных приложениях по генерации видео. Однако обучение моделей для задач генерации длинных видео требует значительных вычислительных и данных ресурсов, что представляет собой вызов для разработки длинных моделей диффузии видео. В данной статье исследуется простой и не требующий обучения подход к расширению существующей модели диффузии коротких видео (например, предварительно обученной на видео из 16 кадров) для последовательной генерации длинных видео (например, 128 кадров). Наши предварительные наблюдения показали, что прямое применение короткой модели диффузии видео для генерации длинных видео может привести к серьезному снижению качества видео. Дальнейшее исследование показало, что это снижение в основном обусловлено искажением высокочастотных компонентов в длинных видео, характеризующимся уменьшением пространственных высокочастотных компонентов и увеличением временных высокочастотных компонентов. Вдохновленные этим, мы предлагаем новое решение под названием FreeLong для балансировки частотного распределения признаков длинного видео в процессе удаления шума. FreeLong объединяет низкочастотные компоненты глобальных видеопризнаков, охватывающих всю последовательность видео, с высокочастотными компонентами локальных видеопризнаков, сосредотачивающихся на более коротких последовательностях кадров. Этот подход поддерживает глобальную согласованность, в то время как включает разнообразные и высококачественные пространственно-временные детали из локальных видео, улучшая как согласованность, так и достоверность генерации длинных видео. Мы оценили FreeLong на нескольких базовых моделях диффузии видео и обнаружили значительные улучшения. Кроме того, наш метод поддерживает согласованную многозадачную генерацию, обеспечивая как визуальную согласованность, так и плавные переходы между сценами.
English
Video diffusion models have made substantial progress in various video generation applications. However, training models for long video generation tasks require significant computational and data resources, posing a challenge to developing long video diffusion models. This paper investigates a straightforward and training-free approach to extend an existing short video diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video generation (e.g. 128 frames). Our preliminary observation has found that directly applying the short video diffusion model to generate long videos can lead to severe video quality degradation. Further investigation reveals that this degradation is primarily due to the distortion of high-frequency components in long videos, characterized by a decrease in spatial high-frequency components and an increase in temporal high-frequency components. Motivated by this, we propose a novel solution named FreeLong to balance the frequency distribution of long video features during the denoising process. FreeLong blends the low-frequency components of global video features, which encapsulate the entire video sequence, with the high-frequency components of local video features that focus on shorter subsequences of frames. This approach maintains global consistency while incorporating diverse and high-quality spatiotemporal details from local videos, enhancing both the consistency and fidelity of long video generation. We evaluated FreeLong on multiple base video diffusion models and observed significant improvements. Additionally, our method supports coherent multi-prompt generation, ensuring both visual coherence and seamless transitions between scenes.

Summary

AI-Generated Summary

PDF522November 28, 2024