ChatPaper.aiChatPaper

FreeLong: Generación de videos largos sin entrenamiento con Atención Temporal SpectralBlend.

FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention

July 29, 2024
Autores: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI

Resumen

Los modelos de difusión de video han avanzado considerablemente en diversas aplicaciones de generación de video. Sin embargo, entrenar modelos para tareas de generación de video largas requiere recursos computacionales y de datos significativos, lo que representa un desafío para el desarrollo de modelos de difusión de video largos. Este documento investiga un enfoque sencillo y sin entrenamiento para extender un modelo de difusión de video corto existente (por ejemplo, pre-entrenado en videos de 16 cuadros) para una generación de video larga consistente (por ejemplo, 128 cuadros). Nuestra observación preliminar ha encontrado que aplicar directamente el modelo de difusión de video corto para generar videos largos puede llevar a una degradación severa en la calidad del video. Una investigación adicional revela que esta degradación se debe principalmente a la distorsión de los componentes de alta frecuencia en videos largos, caracterizada por una disminución en los componentes de alta frecuencia espaciales y un aumento en los componentes de alta frecuencia temporales. Motivados por esto, proponemos una solución novedosa llamada FreeLong para equilibrar la distribución de frecuencia de las características de video largas durante el proceso de eliminación de ruido. FreeLong combina los componentes de baja frecuencia de las características de video globales, que encapsulan toda la secuencia de video, con los componentes de alta frecuencia de las características de video locales que se centran en subsecuencias más cortas de cuadros. Este enfoque mantiene la consistencia global al incorporar detalles espacio-temporales diversos y de alta calidad de videos locales, mejorando tanto la consistencia como la fidelidad de la generación de video larga. Evaluamos FreeLong en varios modelos base de difusión de video y observamos mejoras significativas. Además, nuestro método admite una generación coherente de múltiples estímulos, asegurando tanto la coherencia visual como transiciones fluidas entre escenas.
English
Video diffusion models have made substantial progress in various video generation applications. However, training models for long video generation tasks require significant computational and data resources, posing a challenge to developing long video diffusion models. This paper investigates a straightforward and training-free approach to extend an existing short video diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video generation (e.g. 128 frames). Our preliminary observation has found that directly applying the short video diffusion model to generate long videos can lead to severe video quality degradation. Further investigation reveals that this degradation is primarily due to the distortion of high-frequency components in long videos, characterized by a decrease in spatial high-frequency components and an increase in temporal high-frequency components. Motivated by this, we propose a novel solution named FreeLong to balance the frequency distribution of long video features during the denoising process. FreeLong blends the low-frequency components of global video features, which encapsulate the entire video sequence, with the high-frequency components of local video features that focus on shorter subsequences of frames. This approach maintains global consistency while incorporating diverse and high-quality spatiotemporal details from local videos, enhancing both the consistency and fidelity of long video generation. We evaluated FreeLong on multiple base video diffusion models and observed significant improvements. Additionally, our method supports coherent multi-prompt generation, ensuring both visual coherence and seamless transitions between scenes.

Summary

AI-Generated Summary

PDF522November 28, 2024