RhymeFlow : Accélération sans entraînement pour la génération de vidéos avec planification asynchrone du flux de débruitage

Résumé

Les modèles de génération vidéo basés sur les Transformers de diffusion (DiTs) ont obtenu des performances remarquables en synthèse vidéo, mais souffrent d’une latence d’inférence élevée et de coûts de calcul importants en raison de la complexité quadratique de l’attention 3D. Les méthodes d’accélération existantes réduisent principalement la complexité de calcul au sein de chaque étape individuelle de débruitage grâce à des techniques telles que l’attention sparse et la mise en cache KV. Cependant, elles adhèrent rigoureusement à la contrainte inhérente du pipeline de diffusion standard : chaque image de la séquence vidéo cible doit subir un processus de débruitage complet et dense sur l’ensemble des pas de temps de diffusion. Nous observons qu’en raison des contenus et des mouvements correspondants entre les images adjacentes, lorsque des images clés avec des transitions sémantiques critiques sont ancrées, les états intermédiaires des autres suivent souvent des trajectoires plus prévisibles, ce qui indique qu’un tel processus de débruitage uniforme et dense est intrinsèquement redondant pour les données vidéo naturelles. À cette fin, nous introduisons RhymeFlow, un cadre sans entraînement qui découple les trajectoires de débruitage des différentes images. Plus précisément, nous identifions d’abord un ensemble sparse d’images clés pivot qui dominent l’évolution sémantique latente. Ensuite, seules ces images clés subissent un débruitage dense, étape par étape, pour garantir l’intégrité structurelle, tandis que les images non clés sautent progressivement des étapes de débruitage afin de minimiser le coût de calcul. Étant donné que les états intermédiaires sautés des images non clés brisent la cohérence temporelle dans les étapes de débruitage des images clés, entraînant une dégradation visuelle, nous introduisons en outre un module de projection de trajectoire latente, qui permet aux images clés d’interagir avec une représentation de séquence complète et temporellement cohérente. Des expériences approfondies sur les modèles actuels de génération vidéo basés sur DiT démontrent que notre méthode surpasse les bases de référence existantes avec une vitesse d’inférence plus élevée et une meilleure qualité visuelle.

English

Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce RhymeFlow, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.