FreeLong++: Training-vrije lange videogeneratie via Multi-band SpectraleFusie
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Auteurs: Yu Lu, Yi Yang
cs.AI
Samenvatting
Recente vooruitgang in videogeneratiemodellen heeft hoogwaardige korte videogeneratie op basis van tekstprompts mogelijk gemaakt. Het uitbreiden van deze modellen naar langere video's blijft echter een aanzienlijke uitdaging, voornamelijk vanwege verminderde temporele consistentie en visuele kwaliteit. Onze eerste observaties tonen aan dat het naïef toepassen van kortvideogeneratiemodellen op langere sequenties leidt tot een merkbare kwaliteitsafname. Verdere analyse identificeert een systematische trend waarbij hoogfrequente componenten steeds meer vervormd raken naarmate de videolengte toeneemt, een probleem dat we hoogfrequente vervorming noemen. Om dit aan te pakken, stellen we FreeLong voor, een trainingsvrij framework dat is ontworpen om de frequentieverdeling van lange videokenmerken tijdens het denoisingsproces in balans te brengen. FreeLong bereikt dit door globale laagfrequente kenmerken, die de holistische semantiek over de volledige video vastleggen, te combineren met lokale hoogfrequente kenmerken die uit korte temporele vensters worden gehaald om fijne details te behouden. Hierop voortbouwend breidt FreeLong++ het dual-branch ontwerp van FreeLong uit naar een multi-branch architectuur met meerdere aandachtstakken, elk werkend op een afzonderlijke temporele schaal. Door meerdere venstergroottes van globaal naar lokaal te rangschikken, maakt FreeLong++ multi-band frequentiefusie mogelijk van laag naar hoog, wat zowel semantische continuïteit als fijnmazige bewegingsdynamiek over langere videosequenties waarborgt. Zonder enige aanvullende training kan FreeLong++ worden ingebouwd in bestaande videogeneratiemodellen (bijv. Wan2.1 en LTX-Video) om langere video's te produceren met aanzienlijk verbeterde temporele consistentie en visuele kwaliteit. We demonstreren dat onze aanpak eerdere methoden overtreft bij langere videogeneratietaken (bijv. 4x en 8x van de oorspronkelijke lengte). Het ondersteunt ook coherente multi-prompt videogeneratie met vloeiende scènetransities en maakt controleerbare videogeneratie mogelijk met behulp van lange diepte- of posesequenties.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.