피라미드 주의 방송을 이용한 실시간 비디오 생성
Real-Time Video Generation with Pyramid Attention Broadcast
August 22, 2024
저자: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
cs.AI
초록
우리는 Pyramid Attention Broadcast (PAB)를 제시합니다. 이는 DiT 기반 비디오 생성을 위한 실시간, 고품질 및 학습 불필요한 접근 방식입니다. 우리의 방법은 확산 과정에서의 주의 차이가 U자형 패턴을 나타내어 상당한 중복성을 보여준다는 관찰에 기초합니다. 우리는 이를 피라미드 스타일로 주의 출력을 후속 단계에 방송함으로써 완화합니다. 각 주의에 대해 분산에 따라 다른 방송 전략을 적용하여 최상의 효율성을 달성합니다. 더 나아가 더 효율적인 분산 추론을 위해 방송 순서 병렬을 소개합니다. PAB는 기준선과 비교하여 세 가지 모델 전반에 걸쳐 우수한 결과를 보여주며, 최대 720p 비디오에 대한 실시간 생성을 달성합니다. 우리는 우리의 간단하면서도 효과적인 방법이 강력한 기준선으로 작용하고 비디오 생성을 위한 미래 연구 및 응용을 용이하게 할 것으로 기대합니다.
English
We present Pyramid Attention Broadcast (PAB), a real-time, high quality and
training-free approach for DiT-based video generation. Our method is founded on
the observation that attention difference in the diffusion process exhibits a
U-shaped pattern, indicating significant redundancy. We mitigate this by
broadcasting attention outputs to subsequent steps in a pyramid style. It
applies different broadcast strategies to each attention based on their
variance for best efficiency. We further introduce broadcast sequence parallel
for more efficient distributed inference. PAB demonstrates superior results
across three models compared to baselines, achieving real-time generation for
up to 720p videos. We anticipate that our simple yet effective method will
serve as a robust baseline and facilitate future research and application for
video generation.Summary
AI-Generated Summary