Generazione di Video in Tempo Reale con Trasmissione a Piramide dell'Attenzione
Real-Time Video Generation with Pyramid Attention Broadcast
August 22, 2024
Autori: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
cs.AI
Abstract
Presentiamo Pyramid Attention Broadcast (PAB), un approccio in tempo reale, di alta qualità e senza necessità di addestramento per la generazione di video basata su DiT. Il nostro metodo si fonda sull'osservazione che la differenza di attenzione nel processo di diffusione mostra un pattern a forma di U, indicando una significativa ridondanza. Mitighiamo questo problema trasmettendo gli output di attenzione ai passaggi successivi in uno stile piramidale. Questo applica diverse strategie di trasmissione a ciascuna attenzione in base alla loro varianza per ottenere la massima efficienza. Introduciamo inoltre il parallelismo della sequenza di trasmissione per un'inferenza distribuita più efficiente. PAB dimostra risultati superiori rispetto ai baseline su tre modelli, raggiungendo la generazione in tempo reale per video fino a 720p. Anticipiamo che il nostro metodo semplice ma efficace servirà come baseline robusto e faciliterà la ricerca e l'applicazione futura nella generazione di video.
English
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and
training-free approach for DiT-based video generation. Our method is founded on
the observation that attention difference in the diffusion process exhibits a
U-shaped pattern, indicating significant redundancy. We mitigate this by
broadcasting attention outputs to subsequent steps in a pyramid style. It
applies different broadcast strategies to each attention based on their
variance for best efficiency. We further introduce broadcast sequence parallel
for more efficient distributed inference. PAB demonstrates superior results
across three models compared to baselines, achieving real-time generation for
up to 720p videos. We anticipate that our simple yet effective method will
serve as a robust baseline and facilitate future research and application for
video generation.