RhymeFlow: Aceleração sem Treinamento para Geração de Vídeos com Agendamento Assíncrono de Fluxo de Denoising

Resumo

Modelos de geração de vídeo baseados em Transformers de Difusão (DiTs) alcançaram desempenho notável na síntese de vídeo, no entanto, sofrem de alta latência de inferência e custos computacionais devido à complexidade quadrática da atenção 3D. Métodos de aceleração existentes reduzem principalmente a complexidade computacional em cada etapa individual de remoção de ruído por meio de técnicas como atenção esparsa e cache de pares chave-valor (KV-caching). Contudo, eles aderem rigidamente à restrição inerente do pipeline de difusão padrão: cada quadro na sequência de vídeo alvo deve ser submetido a um processo completo e denso de remoção de ruído em todas as etapas temporais de difusão. Observamos que, devido aos conteúdos e movimentos correspondentes entre quadros adjacentes, quando quadros-chave com transições semânticas críticas são ancorados, os estados intermediários dos outros frequentemente seguem trajetórias mais previsíveis, o que indica que esse processo uniforme e denso de remoção de ruído é inerentemente redundante para dados de vídeo natural. Para esse fim, introduzimos o RhymeFlow, uma estrutura livre de treinamento que desacopla as trajetórias de remoção de ruído de diferentes quadros. Especificamente, primeiro identificamos um conjunto esparso de quadros-chave pivotais que dominam a evolução semântica latente. Em seguida, apenas esses quadros-chave passam por remoção de ruído densa, passo a passo, para garantir a integridade estrutural, enquanto os quadros não-chave pulam progressivamente etapas de remoção de ruído para minimizar o custo computacional. Como os estados intermediários pulados dos quadros não-chave quebram a coerência temporal nas etapas de remoção de ruído dos quadros-chave, levando à degradação visual, introduzimos adicionalmente um módulo de projeção de trajetória latente, que permite que os quadros-chave interajam com uma representação de sequência completa e temporalmente consistente. Extensos experimentos em modelos atuais de geração de vídeo baseados em DiT demonstram que nosso método supera as linhas de base existentes com maior velocidade de inferência e melhor qualidade visual.

English

Video generation models based on Diffusion Transformers (DiTs) have achieved remarkable performance in video synthesis, yet they suffer from high inference latency and computational costs due to the quadratic complexity of 3D attention. Existing acceleration methods primarily reduce computational complexity within each individual denoising steps through techniques such as sparse attention and KV-caching. However, they rigidly adhere to the inherent constraint of the standard diffusion pipeline: every frame in the target video sequence must be subjected to a complete, dense denoising process across all diffusion timesteps. We observe that due to the corresponding contents and motions among adjacent frames, when keyframes with critical semantic transitions are anchored, the intermediate states of others often follow more predictable trajectories, which indicates that such uniform, dense denoising process is inherently redundant for natural video data. To this end, we introduce RhymeFlow, a training-free framework that decouples the denoising trajectories of different frames. Specifically, we first identify a sparse set of pivotal key frames that dominate the latent semantic evolution. Then, only these keyframes undergo dense, step-by-step denoising to ensure structural integrity, while non-keyframes progressively skip denoising steps to minimize computational cost. Since skipped intermediate states of non-keyframes break the temporal coherence in keyframe denoising steps, leading to visual degradation, we further introduce a latent trajectory projection module, which enables keyframes to interact with a complete and temporally consistent sequence representation. Extensive experiments on current DiT-based video generation models demonstrate our method outperforms existing baselines with higher inference speed and better visual quality.