FreeLong++: Создание длинных видео без обучения с помощью мультиполосного спектрального слияния
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
June 30, 2025
Авторы: Yu Lu, Yi Yang
cs.AI
Аннотация
Последние достижения в моделях генерации видео позволили создавать высококачественные короткие видеоролики на основе текстовых запросов. Однако расширение этих моделей для генерации более длинных видео остается значительной проблемой, главным образом из-за ухудшения временной согласованности и визуальной точности. Наши предварительные наблюдения показывают, что прямое применение моделей генерации коротких видео к более длинным последовательностям приводит к заметному снижению качества. Дальнейший анализ выявил систематическую тенденцию, при которой высокочастотные компоненты становятся все более искаженными с увеличением длины видео, что мы обозначаем как высокочастотное искажение. Для решения этой проблемы мы предлагаем FreeLong, бесплатную от обучения структуру, предназначенную для балансировки частотного распределения признаков длинных видео в процессе шумоподавления. FreeLong достигает этого путем смешения глобальных низкочастотных признаков, которые захватывают целостную семантику всего видео, с локальными высокочастотными признаками, извлеченными из коротких временных окон, чтобы сохранить мелкие детали. На основе этого FreeLong++ расширяет двухветвевую структуру FreeLong до многоканальной архитектуры с несколькими ветвями внимания, каждая из которых работает на отдельном временном масштабе. Упорядочивая несколько размеров окон от глобального до локального, FreeLong++ обеспечивает многополосное частотное слияние от низких до высоких частот, гарантируя как семантическую непрерывность, так и детализированную динамику движения в более длинных видеопоследовательностях. Без необходимости дополнительного обучения FreeLong++ может быть интегрирован в существующие модели генерации видео (например, Wan2.1 и LTX-Video) для создания более длинных видео с существенно улучшенной временной согласованностью и визуальной точностью. Мы демонстрируем, что наш подход превосходит предыдущие методы в задачах генерации длинных видео (например, в 4 и 8 раз больше исходной длины). Он также поддерживает согласованную генерацию видео по нескольким запросам с плавными переходами между сценами и позволяет управляемую генерацию видео с использованием длинных последовательностей глубины или поз.
English
Recent advances in video generation models have enabled high-quality short
video generation from text prompts. However, extending these models to longer
videos remains a significant challenge, primarily due to degraded temporal
consistency and visual fidelity. Our preliminary observations show that naively
applying short-video generation models to longer sequences leads to noticeable
quality degradation. Further analysis identifies a systematic trend where
high-frequency components become increasingly distorted as video length grows,
an issue we term high-frequency distortion. To address this, we propose
FreeLong, a training-free framework designed to balance the frequency
distribution of long video features during the denoising process. FreeLong
achieves this by blending global low-frequency features, which capture holistic
semantics across the full video, with local high-frequency features extracted
from short temporal windows to preserve fine details. Building on this,
FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture
with multiple attention branches, each operating at a distinct temporal scale.
By arranging multiple window sizes from global to local, FreeLong++ enables
multi-band frequency fusion from low to high frequencies, ensuring both
semantic continuity and fine-grained motion dynamics across longer video
sequences. Without any additional training, FreeLong++ can be plugged into
existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer
videos with substantially improved temporal consistency and visual fidelity. We
demonstrate that our approach outperforms previous methods on longer video
generation tasks (e.g. 4x and 8x of native length). It also supports coherent
multi-prompt video generation with smooth scene transitions and enables
controllable video generation using long depth or pose sequences.