ChatPaper.aiChatPaper

Echtzeit-Videogenerierung mit Pyramiden-Aufmerksamkeitsübertragung

Real-Time Video Generation with Pyramid Attention Broadcast

August 22, 2024
Autoren: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
cs.AI

Zusammenfassung

Wir präsentieren Pyramid Attention Broadcast (PAB), einen echtzeitfähigen, hochwertigen und trainingsfreien Ansatz für die Generierung von Videos auf Basis von Diffusionstransformern (DiT). Unsere Methode basiert auf der Beobachtung, dass die Aufmerksamkeitsdifferenz im Diffusionsprozess ein U-förmiges Muster aufweist, was auf eine signifikante Redundanz hinweist. Dies wird durch das Aussenden von Aufmerksamkeitsausgaben in pyramidenförmigem Stil an nachfolgende Schritte gemildert. Es werden unterschiedliche Aussendestrategien für jede Aufmerksamkeit angewendet, basierend auf ihrer Varianz für eine optimale Effizienz. Des Weiteren führen wir eine parallele Aussendesequenz für effizientere verteilte Inferenz ein. PAB zeigt überlegene Ergebnisse bei drei Modellen im Vergleich zu Baselines und ermöglicht die Echtzeitgenerierung von Videos mit bis zu 720p. Wir gehen davon aus, dass unsere einfache, aber effektive Methode als robuste Grundlinie dienen wird und zukünftige Forschung und Anwendungen für die Videogenerierung erleichtern wird.
English
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.

Summary

AI-Generated Summary

PDF172November 16, 2024