FreeLong++: Geração de Vídeos Longos sem Treinamento via Fusão Espectral Multibanda
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Autores: Yu Lu, Yi Yang
cs.AI
Resumo
Os recentes avanços em modelos de geração de vídeo permitiram a criação de vídeos curtos de alta qualidade a partir de prompts de texto. No entanto, estender esses modelos para vídeos mais longos continua sendo um desafio significativo, principalmente devido à degradação da consistência temporal e da fidelidade visual. Nossas observações preliminares mostram que a aplicação direta de modelos de geração de vídeos curtos a sequências mais longas resulta em uma degradação perceptível da qualidade. Uma análise mais aprofundada identifica uma tendência sistemática em que os componentes de alta frequência se tornam cada vez mais distorcidos à medida que o comprimento do vídeo aumenta, um problema que denominamos distorção de alta frequência. Para abordar isso, propomos o FreeLong, uma estrutura sem necessidade de treinamento projetada para equilibrar a distribuição de frequência das características de vídeos longos durante o processo de remoção de ruído. O FreeLong alcança isso combinando características globais de baixa frequência, que capturam a semântica holística de todo o vídeo, com características locais de alta frequência extraídas de janelas temporais curtas para preservar detalhes finos. Com base nisso, o FreeLong++ estende o design de duplo ramo do FreeLong para uma arquitetura de múltiplos ramos, com vários ramos de atenção, cada um operando em uma escala temporal distinta. Ao organizar múltiplos tamanhos de janela, do global ao local, o FreeLong++ permite a fusão de frequências múltiplas, de baixa a alta frequência, garantindo tanto a continuidade semântica quanto a dinâmica de movimento detalhada em sequências de vídeo mais longas. Sem qualquer treinamento adicional, o FreeLong++ pode ser integrado a modelos existentes de geração de vídeo (por exemplo, Wan2.1 e LTX-Video) para produzir vídeos mais longos com consistência temporal e fidelidade visual substancialmente melhoradas. Demonstramos que nossa abordagem supera métodos anteriores em tarefas de geração de vídeos mais longos (por exemplo, 4x e 8x do comprimento nativo). Ela também suporta a geração coerente de vídeos com múltiplos prompts, com transições suaves de cena, e permite a geração controlada de vídeos usando sequências longas de profundidade ou pose.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.