RhymeFlow: Aceleración sin entrenamiento para la generación de video con programación de flujo de denoising asíncrono

Resumen

Los modelos de generación de video basados en Transformers de Difusión (DiTs) han logrado un rendimiento notable en la síntesis de video; sin embargo, sufren de alta latencia de inferencia y costos computacionales debido a la complejidad cuadrática de la atención 3D. Los métodos de aceleración existentes reducen principalmente la complejidad computacional dentro de cada paso individual de eliminación de ruido mediante técnicas como la atención dispersa y el almacenamiento en caché KV. No obstante, se adhieren rígidamente a la restricción inherente del flujo de difusión estándar: cada fotograma en la secuencia de video objetivo debe someterse a un proceso completo y denso de eliminación de ruido a lo largo de todos los pasos temporales de difusión. Observamos que, debido a los contenidos y movimientos correspondientes entre fotogramas adyacentes, cuando se anclan fotogramas clave con transiciones semánticas críticas, los estados intermedios de los demás suelen seguir trayectorias más predecibles, lo que indica que dicho proceso uniforme y denso de eliminación de ruido es inherentemente redundante para los datos de video natural. Con este fin, presentamos RhymeFlow, un marco sin entrenamiento que desacopla las trayectorias de eliminación de ruido de diferentes fotogramas. Específicamente, primero identificamos un conjunto disperso de fotogramas clave fundamentales que dominan la evolución semántica latente. Luego, solo estos fotogramas clave se someten a una eliminación de ruido densa y paso a paso para garantizar la integridad estructural, mientras que los fotogramas no clave omiten progresivamente pasos de eliminación de ruido para minimizar el costo computacional. Dado que los estados intermedios omitidos de los fotogramas no clave rompen la coherencia temporal en los pasos de eliminación de ruido de los fotogramas clave, lo que conduce a una degradación visual, introducimos además un módulo de proyección de trayectoria latente, que permite que los fotogramas clave interactúen con una representación de secuencia completa y temporalmente consistente. Extensos experimentos en modelos actuales de generación de video basados en DiT demuestran que nuestro método supera a las líneas base existentes con mayor velocidad de inferencia y mejor calidad visual.

English

Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce RhymeFlow, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.