Generazione di Video in Tempo Reale con Trasmissione a Piramide dell'Attenzione

Abstract

Presentiamo Pyramid Attention Broadcast (PAB), un approccio in tempo reale, di alta qualità e senza necessità di addestramento per la generazione di video basata su DiT. Il nostro metodo si fonda sull'osservazione che la differenza di attenzione nel processo di diffusione mostra un pattern a forma di U, indicando una significativa ridondanza. Mitighiamo questo problema trasmettendo gli output di attenzione ai passaggi successivi in uno stile piramidale. Questo applica diverse strategie di trasmissione a ciascuna attenzione in base alla loro varianza per ottenere la massima efficienza. Introduciamo inoltre il parallelismo della sequenza di trasmissione per un'inferenza distribuita più efficiente. PAB dimostra risultati superiori rispetto ai baseline su tre modelli, raggiungendo la generazione in tempo reale per video fino a 720p. Anticipiamo che il nostro metodo semplice ma efficace servirà come baseline robusto e faciliterà la ricerca e l'applicazione futura nella generazione di video.

English

We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.

Generazione di Video in Tempo Reale con Trasmissione a Piramide dell'Attenzione

Real-Time Video Generation with Pyramid Attention Broadcast

Abstract

Support