FreeLong++: Generazione di Video Lunghi Senza Addestramento tramite Fusione Spettrale Multi-banda
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Autori: Yu Lu, Yi Yang
cs.AI
Abstract
I recenti progressi nei modelli di generazione video hanno reso possibile la creazione di video brevi di alta qualità a partire da prompt testuali. Tuttavia, estendere questi modelli a video più lunghi rimane una sfida significativa, principalmente a causa del degrado della coerenza temporale e della fedeltà visiva. Le nostre osservazioni preliminari mostrano che applicare in modo ingenuo i modelli di generazione di video brevi a sequenze più lunghe porta a un evidente deterioramento della qualità. Un'analisi più approfondita identifica una tendenza sistematica in cui le componenti ad alta frequenza diventano sempre più distorte con l'aumentare della lunghezza del video, un problema che definiamo distorsione ad alta frequenza. Per affrontare questo problema, proponiamo FreeLong, un framework senza necessità di addestramento progettato per bilanciare la distribuzione delle frequenze delle caratteristiche dei video lunghi durante il processo di denoising. FreeLong raggiunge questo obiettivo fondendo caratteristiche globali a bassa frequenza, che catturano la semantica complessiva dell'intero video, con caratteristiche locali ad alta frequenza estratte da finestre temporali brevi per preservare i dettagli fini. Su questa base, FreeLong++ estende il design a doppio ramo di FreeLong in un'architettura multi-ramo con più rami di attenzione, ciascuno operante su una scala temporale distinta. Disponendo più dimensioni di finestre da globale a locale, FreeLong++ consente la fusione multi-banda delle frequenze da basse ad alte, garantendo sia la continuità semantica che la dinamica del movimento a livello di dettaglio attraverso sequenze video più lunghe. Senza alcun addestramento aggiuntivo, FreeLong++ può essere integrato in modelli esistenti di generazione video (ad esempio, Wan2.1 e LTX-Video) per produrre video più lunghi con una coerenza temporale e una fedeltà visiva sostanzialmente migliorate. Dimostriamo che il nostro approccio supera i metodi precedenti nei compiti di generazione di video più lunghi (ad esempio, 4x e 8x della lunghezza nativa). Supporta inoltre la generazione coerente di video multi-prompt con transizioni di scena fluide e abilita la generazione controllata di video utilizzando sequenze lunghe di profondità o pose.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.