FreeLong++ : Génération de vidéos longues sans entraînement via une fusion spectrale multi-bandes
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Auteurs: Yu Lu, Yi Yang
cs.AI
Résumé
Les récents progrès dans les modèles de génération vidéo ont permis la création de vidéos courtes de haute qualité à partir de prompts textuels. Cependant, étendre ces modèles à des vidéos plus longues reste un défi majeur, principalement en raison de la dégradation de la cohérence temporelle et de la fidélité visuelle. Nos observations préliminaires montrent qu'appliquer naïvement les modèles de génération de vidéos courtes à des séquences plus longues entraîne une détérioration notable de la qualité. Une analyse plus approfondie révèle une tendance systématique où les composantes haute fréquence deviennent de plus en plus distordues à mesure que la longueur de la vidéo augmente, un problème que nous appelons distorsion haute fréquence. Pour y remédier, nous proposons FreeLong, un cadre sans entraînement conçu pour équilibrer la distribution de fréquence des caractéristiques des vidéos longues pendant le processus de débruitage. FreeLong y parvient en mélangeant des caractéristiques globales basse fréquence, qui capturent la sémantique holistique de la vidéo entière, avec des caractéristiques locales haute fréquence extraites de fenêtres temporelles courtes pour préserver les détails fins. Sur cette base, FreeLong++ étend la conception à double branche de FreeLong en une architecture multi-branches avec plusieurs branches d'attention, chacune opérant à une échelle temporelle distincte. En organisant plusieurs tailles de fenêtres du global au local, FreeLong++ permet une fusion multi-bandes de fréquences, des basses aux hautes fréquences, assurant à la fois la continuité sémantique et la dynamique fine des mouvements sur des séquences vidéo plus longues. Sans aucun entraînement supplémentaire, FreeLong++ peut être intégré dans des modèles de génération vidéo existants (par exemple, Wan2.1 et LTX-Video) pour produire des vidéos plus longues avec une cohérence temporelle et une fidélité visuelle nettement améliorées. Nous démontrons que notre approche surpasse les méthodes précédentes dans les tâches de génération de vidéos longues (par exemple, 4x et 8x de la longueur native). Elle prend également en charge la génération cohérente de vidéos multi-prompts avec des transitions de scène fluides et permet une génération vidéo contrôlée en utilisant des séquences longues de profondeur ou de pose.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.