ChatPaper.aiChatPaper

Geração de Vídeo em Tempo Real com Transmissão de Atenção em Pirâmide

Real-Time Video Generation with Pyramid Attention Broadcast

August 22, 2024
Autores: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
cs.AI

Resumo

Apresentamos a Transmissão de Atenção em Pirâmide (PAB), uma abordagem em tempo real, de alta qualidade e sem necessidade de treinamento para geração de vídeo baseada em DiT. Nosso método é fundamentado na observação de que a diferença de atenção no processo de difusão exibe um padrão em forma de U, indicando uma redundância significativa. Mitigamos isso transmitindo as saídas de atenção para etapas subsequentes em um estilo de pirâmide. Aplicamos diferentes estratégias de transmissão para cada atenção com base em sua variância para obter a melhor eficiência. Além disso, introduzimos a transmissão sequencial paralela para uma inferência distribuída mais eficiente. O PAB demonstra resultados superiores em três modelos em comparação com os baselines, alcançando geração em tempo real para vídeos de até 720p. Antecipamos que nosso método simples, porém eficaz, servirá como uma linha de base robusta e facilitará pesquisas e aplicações futuras para geração de vídeo.
English
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.
PDF172November 16, 2024