RhymeFlow: Trainingvrije versnelling voor videogeneratie met asynchrone denoising-stroomplanning

Samenvatting

Videogeneratiemodellen gebaseerd op diffusie-transformatoren (DiTs) hebben opmerkelijke prestaties behaald in videosynthese, maar kampen met hoge inferentielatentie en rekenkosten als gevolg van de kwadratische complexiteit van 3D-aandacht. Bestaande versnellingsmethoden verminderen voornamelijk de rekencomplexiteit binnen individuele denoisingstappen door technieken zoals schaarse aandacht en KV-caching. Zij houden zich echter strikt aan de inherente beperking van de standaard diffusiepipeline: elk frame in de doelvideosequentie moet een volledig, dicht denoisingproces ondergaan gedurende alle diffusietijdstappen. Wij merken op dat, vanwege de corresponderende inhoud en bewegingen tussen aangrenzende frames, wanneer sleutelframes met kritieke semantische overgangen worden verankerd, de tussentoestanden van andere frames vaak voorspelbaardere trajecten volgen, wat erop wijst dat een dergelijk uniform, dicht denoisingproces inherent redundant is voor natuurlijke videodata. Hiertoe introduceren wij RhymeFlow, een trainingvrij raamwerk dat de denoisingtrajecten van verschillende frames ontkoppelt. Specifiek identificeren we eerst een schaarse set van cruciale sleutelframes die de latente semantische evolutie domineren. Vervolgens ondergaan alleen deze sleutelframes een dichte, stapsgewijze denoising om structurele integriteit te waarborgen, terwijl niet-sleutelframes stapsgewijs denoisingstappen overslaan om rekenkosten te minimaliseren. Aangezien overgeslagen tussentoestanden van niet-sleutelframes de temporele coherentie in denoisingstappen van sleutelframes doorbreken, wat leidt tot visuele degradatie, introduceren we verder een latente trajectprojectiemodule, die het mogelijk maakt dat sleutelframes interacteren met een volledige en temporeel consistente sequentierepresentatie. Uitgebreide experimenten op huidige DiT-gebaseerde videogeneratiemodellen tonen aan dat onze methode bestaande baselines overtreft met hogere inferentiesnelheid en betere visuele kwaliteit.

English

Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce RhymeFlow, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.