ChatPaper.aiChatPaper

Generación de Video en Tiempo Real con Atención en Pirámide Broadcast.

Real-Time Video Generation with Pyramid Attention Broadcast

August 22, 2024
Autores: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
cs.AI

Resumen

Presentamos Pyramid Attention Broadcast (PAB), un enfoque en tiempo real, de alta calidad y sin entrenamiento para la generación de video basada en DiT. Nuestro método se basa en la observación de que la diferencia de atención en el proceso de difusión muestra un patrón en forma de U, lo que indica una redundancia significativa. Mitigamos esto transmitiendo las salidas de atención a pasos posteriores de manera piramidal. Aplicamos diferentes estrategias de transmisión a cada atención basadas en su varianza para lograr la mejor eficiencia. Además, introducimos la transmisión paralela de secuencia para una inferencia distribuida más eficiente. PAB demuestra resultados superiores en tres modelos en comparación con los baselines, logrando generación en tiempo real de videos de hasta 720p. Anticipamos que nuestro método simple pero efectivo servirá como una línea base sólida y facilitará la investigación y aplicación futuras para la generación de video.
English
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.

Summary

AI-Generated Summary

PDF172November 16, 2024