RhymeFlow: ускорение без обучения для генерации видео с асинхронным планированием потока шумоподавления

Аннотация

Модели генерации видео на основе Diffusion Transformers (DiTs) демонстрируют впечатляющие результаты в видеосинтезе, однако страдают от высокой задержки вывода и вычислительных затрат из-за квадратичной сложности трехмерного внимания. Существующие методы ускорения в основном снижают вычислительную сложность на каждом отдельном шаге шумоподавления с помощью таких методов, как разреженное внимание и KV-кэширование. Однако они жестко придерживаются неотъемлемого ограничения стандартного диффузионного пайплайна: каждый кадр целевой видеопоследовательности должен подвергаться полному, плотному процессу шумоподавления на всех диффузионных временных шагах. Мы замечаем, что из-за соответствующего содержимого и движений между смежными кадрами, когда ключевые кадры с критическими семантическими переходами закреплены, промежуточные состояния других кадров часто следуют более предсказуемым траекториям, что указывает на то, что такой равномерный, плотный процесс шумоподавления по своей сути избыточен для естественных видеоданных. С этой целью мы представляем RhymeFlow — безучебный фреймворк, который разделяет траектории шумоподавления разных кадров. В частности, мы сначала определяем разреженный набор ключевых кадров, доминирующих в латентной семантической эволюции. Затем только эти ключевые кадры подвергаются плотному покадровому шумоподавлению для обеспечения структурной целостности, в то время как неключевые кадры постепенно пропускают шаги шумоподавления, чтобы минимизировать вычислительные затраты. Поскольку пропущенные промежуточные состояния неключевых кадров нарушают временную согласованность на этапах шумоподавления ключевых кадров, что приводит к ухудшению визуального качества, мы дополнительно вводим модуль проекции латентной траектории, который позволяет ключевым кадрам взаимодействовать с полным и временно согласованным представлением последовательности. Обширные эксперименты на текущих моделях генерации видео на основе DiTs показывают, что наш метод превосходит существующие базовые решения с более высокой скоростью вывода и лучшим визуальным качеством.

English

Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce RhymeFlow, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.