FreeLong : Génération de vidéos longues sans entraînement avec attention temporelle SpectralBlend
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
July 29, 2024
Auteurs: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI
Résumé
Les modèles de diffusion vidéo ont réalisé des progrès substantiels dans diverses applications de génération vidéo. Cependant, l'entraînement de modèles pour des tâches de génération de vidéos longues nécessite des ressources computationnelles et des données importantes, ce qui pose un défi au développement de modèles de diffusion pour vidéos longues. Cet article explore une approche simple et sans entraînement pour étendre un modèle de diffusion vidéo courte existant (par exemple, pré-entraîné sur des vidéos de 16 images) à la génération cohérente de vidéos longues (par exemple, 128 images). Notre observation préliminaire a révélé qu'appliquer directement le modèle de diffusion vidéo courte pour générer des vidéos longues peut entraîner une dégradation sévère de la qualité vidéo. Une investigation plus approfondie montre que cette dégradation est principalement due à la distorsion des composantes haute fréquence dans les vidéos longues, caractérisée par une diminution des composantes haute fréquence spatiales et une augmentation des composantes haute fréquence temporelles. Motivés par cela, nous proposons une solution novatrice nommée FreeLong pour équilibrer la distribution de fréquence des caractéristiques des vidéos longues pendant le processus de débruîtage. FreeLong mélange les composantes basse fréquence des caractéristiques vidéo globales, qui encapsulent la séquence vidéo entière, avec les composantes haute fréquence des caractéristiques vidéo locales qui se concentrent sur des sous-séquences plus courtes d'images. Cette approche maintient une cohérence globale tout en incorporant des détails spatio-temporels diversifiés et de haute qualité provenant de vidéos locales, améliorant à la fois la cohérence et la fidélité de la génération de vidéos longues. Nous avons évalué FreeLong sur plusieurs modèles de base de diffusion vidéo et observé des améliorations significatives. De plus, notre méthode prend en charge la génération cohérente multi-prompt, assurant à la fois une cohérence visuelle et des transitions fluides entre les scènes.
English
Video diffusion models have made substantial progress in various video
generation applications. However, training models for long video generation
tasks require significant computational and data resources, posing a challenge
to developing long video diffusion models. This paper investigates a
straightforward and training-free approach to extend an existing short video
diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video
generation (e.g. 128 frames). Our preliminary observation has found that
directly applying the short video diffusion model to generate long videos can
lead to severe video quality degradation. Further investigation reveals that
this degradation is primarily due to the distortion of high-frequency
components in long videos, characterized by a decrease in spatial
high-frequency components and an increase in temporal high-frequency
components. Motivated by this, we propose a novel solution named FreeLong to
balance the frequency distribution of long video features during the denoising
process. FreeLong blends the low-frequency components of global video features,
which encapsulate the entire video sequence, with the high-frequency components
of local video features that focus on shorter subsequences of frames. This
approach maintains global consistency while incorporating diverse and
high-quality spatiotemporal details from local videos, enhancing both the
consistency and fidelity of long video generation. We evaluated FreeLong on
multiple base video diffusion models and observed significant improvements.
Additionally, our method supports coherent multi-prompt generation, ensuring
both visual coherence and seamless transitions between scenes.Summary
AI-Generated Summary