FreeLong++: Trainingsfreie Langvideogenerierung durch Multiband-Spektralfusion
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Autoren: Yu Lu, Yi Yang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Entwicklung von Videogenerierungsmodellen haben die Erstellung hochwertiger Kurzvideos aus Textanweisungen ermöglicht. Die Erweiterung dieser Modelle auf längere Videos bleibt jedoch eine große Herausforderung, hauptsächlich aufgrund von verschlechterter zeitlicher Konsistenz und visueller Qualität. Unsere vorläufigen Beobachtungen zeigen, dass die naive Anwendung von Kurzvideo-Generierungsmodellen auf längere Sequenzen zu einer merklichen Qualitätsverschlechterung führt. Eine weitere Analyse identifiziert einen systematischen Trend, bei dem hochfrequente Komponenten mit zunehmender Videolänge immer stärker verzerrt werden – ein Problem, das wir als hochfrequente Verzerrung bezeichnen. Um dies zu beheben, schlagen wir FreeLong vor, ein trainingsfreies Framework, das darauf abzielt, die Frequenzverteilung langer Videomerkmale während des Denoising-Prozesses auszugleichen. FreeLong erreicht dies durch die Kombination globaler niederfrequenter Merkmale, die die ganzheitliche Semantik des gesamten Videos erfassen, mit lokalen hochfrequenten Merkmalen, die aus kurzen zeitlichen Fenstern extrahiert werden, um feine Details zu bewahren. Darauf aufbauend erweitert FreeLong++ das Dual-Branch-Design von FreeLong zu einer Multi-Branch-Architektur mit mehreren Aufmerksamkeitszweigen, die jeweils auf einer unterschiedlichen zeitlichen Skala operieren. Durch die Anordnung mehrerer Fenstergrößen von global bis lokal ermöglicht FreeLong++ eine Multi-Band-Frequenzfusion von niedrigen zu hohen Frequenzen, wodurch sowohl semantische Kontinuität als auch fein abgestufte Bewegungsdynamik über längere Videosequenzen sichergestellt werden. Ohne zusätzliches Training kann FreeLong++ in bestehende Videogenerierungsmodelle (z. B. Wan2.1 und LTX-Video) integriert werden, um längere Videos mit deutlich verbesserter zeitlicher Konsistenz und visueller Qualität zu erzeugen. Wir zeigen, dass unser Ansatz frühere Methoden bei der Generierung längerer Videos (z. B. 4x und 8x der ursprünglichen Länge) übertrifft. Es unterstützt auch die kohärente Multi-Prompt-Videogenerierung mit fließenden Szenenübergängen und ermöglicht eine kontrollierbare Videogenerierung mithilfe langer Tiefen- oder Posesequenzen.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.