FreeLong++: Generación de Videos Largos sin Entrenamiento mediante Fusión Espectral Multibanda
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Autores: Yu Lu, Yi Yang
cs.AI
Resumen
Los recientes avances en los modelos de generación de video han permitido la creación de videos cortos de alta calidad a partir de indicaciones de texto. Sin embargo, extender estos modelos a videos más largos sigue siendo un desafío significativo, principalmente debido a la degradación de la consistencia temporal y la fidelidad visual. Nuestras observaciones preliminares muestran que aplicar de manera ingenua los modelos de generación de videos cortos a secuencias más largas conduce a una degradación notable de la calidad. Un análisis más profundo identifica una tendencia sistemática en la que los componentes de alta frecuencia se distorsionan cada vez más a medida que aumenta la duración del video, un problema que denominamos distorsión de alta frecuencia. Para abordar esto, proponemos FreeLong, un marco sin necesidad de entrenamiento diseñado para equilibrar la distribución de frecuencia de las características de videos largos durante el proceso de eliminación de ruido. FreeLong logra esto combinando características globales de baja frecuencia, que capturan la semántica holística a lo largo de todo el video, con características locales de alta frecuencia extraídas de ventanas temporales cortas para preservar los detalles finos. Basándose en esto, FreeLong++ extiende el diseño de doble rama de FreeLong a una arquitectura de múltiples ramas con varias ramas de atención, cada una operando en una escala temporal distinta. Al organizar múltiples tamaños de ventana desde lo global hasta lo local, FreeLong++ permite la fusión de frecuencias en múltiples bandas, desde las bajas hasta las altas frecuencias, asegurando tanto la continuidad semántica como la dinámica de movimiento detallada en secuencias de video más largas. Sin necesidad de entrenamiento adicional, FreeLong++ puede integrarse en modelos existentes de generación de video (por ejemplo, Wan2.1 y LTX-Video) para producir videos más largos con una consistencia temporal y fidelidad visual sustancialmente mejoradas. Demostramos que nuestro enfoque supera a los métodos anteriores en tareas de generación de videos más largos (por ejemplo, 4x y 8x de la longitud nativa). También admite la generación coherente de videos con múltiples indicaciones, con transiciones suaves entre escenas, y permite la generación controlada de videos utilizando secuencias largas de profundidad o pose.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.