RhymeFlow: Trainingsfreie Beschleunigung für die Videogenerierung mit asynchronem Denoising-Flow-Scheduling

Zusammenfassung

Videogenerierungsmodelle basierend auf Diffusion Transformers (DiTs) erzielen bemerkenswerte Leistungen in der Videosynthese, leiden jedoch unter hoher Inferenzlatenz und Rechenkosten aufgrund der quadratischen Komplexität der 3D-Aufmerksamkeit. Bestehende Beschleunigungsmethoden reduzieren hauptsächlich die Rechenkomplexität innerhalb einzelner Entrauschungsschritte durch Techniken wie sparse Attention und KV-Caching. Sie halten sich jedoch starr an die inhärente Einschränkung der Standard-Diffusionspipeline: Jeder Frame in der Zielvideosequenz muss einen vollständigen, dichten Entrauschungsprozess über alle Diffusionszeitschritte hinweg durchlaufen. Wir beobachten, dass aufgrund der korrespondierenden Inhalte und Bewegungen zwischen benachbarten Frames, wenn Schlüsselframes mit kritischen semantischen Übergängen verankert sind, die Zwischenzustände anderer Frames oft vorhersehbareren Trajektorien folgen. Dies deutet darauf hin, dass ein solcher gleichmäßiger, dichter Entrauschungsprozess für natürliche Videodaten inhärent redundant ist. Daher führen wir RhymeFlow ein, ein trainingsfreies Framework, das die Entrauschungstrajektorien verschiedener Frames entkoppelt. Konkret identifizieren wir zunächst eine dünnbesetzte Menge an zentralen Schlüsselframes, die die latente semantische Entwicklung dominieren. Dann durchlaufen nur diese Schlüsselframes eine dichte, schrittweise Entrauschung, um strukturelle Integrität zu gewährleisten, während Nicht-Schlüsselframes schrittweise Entrauschungsschritte auslassen, um Rechenkosten zu minimieren. Da ausgelassene Zwischenzustände von Nicht-Schlüsselframes die zeitliche Kohärenz in den Entrauschungsschritten der Schlüsselframes unterbrechen und zu visueller Verschlechterung führen, führen wir zusätzlich ein Modul zur Projektion latenter Trajektorien ein, das es Schlüsselframes ermöglicht, mit einer vollständigen und zeitlich konsistenten Sequenzdarstellung zu interagieren. Umfangreiche Experimente mit aktuellen DiT-basierten Videogenerierungsmodellen zeigen, dass unsere Methode bestehende Baselines mit höherer Inferenzgeschwindigkeit und besserer visueller Qualität übertrifft.

English

Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce RhymeFlow, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.