FreeLong++: Generazione di Video Lunghi Senza Addestramento tramite Fusione Spettrale Multi-banda

Abstract

I recenti progressi nei modelli di generazione video hanno reso possibile la creazione di video brevi di alta qualità a partire da prompt testuali. Tuttavia, estendere questi modelli a video più lunghi rimane una sfida significativa, principalmente a causa del degrado della coerenza temporale e della fedeltà visiva. Le nostre osservazioni preliminari mostrano che applicare in modo ingenuo i modelli di generazione di video brevi a sequenze più lunghe porta a un evidente deterioramento della qualità. Un'analisi più approfondita identifica una tendenza sistematica in cui le componenti ad alta frequenza diventano sempre più distorte con l'aumentare della lunghezza del video, un problema che definiamo distorsione ad alta frequenza. Per affrontare questo problema, proponiamo FreeLong, un framework senza necessità di addestramento progettato per bilanciare la distribuzione delle frequenze delle caratteristiche dei video lunghi durante il processo di denoising. FreeLong raggiunge questo obiettivo fondendo caratteristiche globali a bassa frequenza, che catturano la semantica complessiva dell'intero video, con caratteristiche locali ad alta frequenza estratte da finestre temporali brevi per preservare i dettagli fini. Su questa base, FreeLong++ estende il design a doppio ramo di FreeLong in un'architettura multi-ramo con più rami di attenzione, ciascuno operante su una scala temporale distinta. Disponendo più dimensioni di finestre da globale a locale, FreeLong++ consente la fusione multi-banda delle frequenze da basse ad alte, garantendo sia la continuità semantica che la dinamica del movimento a livello di dettaglio attraverso sequenze video più lunghe. Senza alcun addestramento aggiuntivo, FreeLong++ può essere integrato in modelli esistenti di generazione video (ad esempio, Wan2.1 e LTX-Video) per produrre video più lunghi con una coerenza temporale e una fedeltà visiva sostanzialmente migliorate. Dimostriamo che il nostro approccio supera i metodi precedenti nei compiti di generazione di video più lunghi (ad esempio, 4x e 8x della lunghezza nativa). Supporta inoltre la generazione coerente di video multi-prompt con transizioni di scena fluide e abilita la generazione controllata di video utilizzando sequenze lunghe di profondità o pose.

English

Recent advances in video generation models have enabled high-quality short video generation from text prompts. However, extending these models to longer videos remains a significant challenge, primarily due to degraded temporal consistency and visual fidelity. Our preliminary observations show that naively applying short-video generation models to longer sequences leads to noticeable quality degradation. Further analysis identifies a systematic trend where high-frequency components become increasingly distorted as video length grows, an issue we term high-frequency distortion. To address this, we propose FreeLong, a training-free framework designed to balance the frequency distribution of long video features during the denoising process. FreeLong achieves this by blending global low-frequency features, which capture holistic semantics across the full video, with local high-frequency features extracted from short temporal windows to preserve fine details. Building on this, FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture with multiple attention branches, each operating at a distinct temporal scale. By arranging multiple window sizes from global to local, FreeLong++ enables multi-band frequency fusion from low to high frequencies, ensuring both semantic continuity and fine-grained motion dynamics across longer video sequences. Without any additional training, FreeLong++ can be plugged into existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer videos with substantially improved temporal consistency and visual fidelity. We demonstrate that our approach outperforms previous methods on longer video generation tasks (e.g. 4x and 8x of native length). It also supports coherent multi-prompt video generation with smooth scene transitions and enables controllable video generation using long depth or pose sequences.