효율적인 비디오 생성 모델링을 위한 피라미드 플로우 매칭
Pyramidal Flow Matching for Efficient Video Generative Modeling
October 8, 2024
저자: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI
초록
비디오 생성은 방대한 시공간 공간을 모델링하는 것을 필요로 하며, 이는 상당한 계산 자원과 데이터 사용을 요구한다. 복잡성을 줄이기 위해, 주로 사용되는 방법은 전체 해상도로 직접 훈련하는 것을 피하기 위해 연쇄 구조를 채택한다. 계산 요구를 줄이지만 각 하위 단계를 별도로 최적화하는 것은 지식 공유를 방해하고 유연성을 희생시킨다. 본 연구는 통합된 피라미드 플로우 매칭 알고리즘을 소개한다. 이는 원래의 노이즈 제거 궤적을 일련의 피라미드 단계로 재해석하며, 여기서 최종 단계만 전체 해상도에서 작동하도록 하여 더 효율적인 비디오 생성 모델링을 가능하게 한다. 우리의 정교한 설계를 통해 서로 다른 피라미드 단계의 흐름을 연결하여 연속성을 유지할 수 있다. 더불어, 전체 해상도 이력을 압축하기 위해 시간적 피라미드를 활용한 자기회귀 비디오 생성을 개발하였다. 전체 프레임워크는 단일 통합 Diffusion Transformer (DiT)로 엔드 투 엔드 방식으로 최적화될 수 있다. 광범위한 실험 결과, 우리의 방법이 768p 해상도에서 24 FPS로 5초 (최대 10초) 비디오를 생성하는 데 20.7k A100 GPU 훈련 시간 내에 고품질 지원을 보여주었다. 모든 코드와 모델은 https://pyramid-flow.github.io에서 오픈 소스로 제공될 것이다.
English
Video generation requires modeling a vast spatiotemporal space, which demands
significant computational resources and data usage. To reduce the complexity,
the prevailing approaches employ a cascaded architecture to avoid direct
training with full resolution. Despite reducing computational demands, the
separate optimization of each sub-stage hinders knowledge sharing and
sacrifices flexibility. This work introduces a unified pyramidal flow matching
algorithm. It reinterprets the original denoising trajectory as a series of
pyramid stages, where only the final stage operates at the full resolution,
thereby enabling more efficient video generative modeling. Through our
sophisticated design, the flows of different pyramid stages can be interlinked
to maintain continuity. Moreover, we craft autoregressive video generation with
a temporal pyramid to compress the full-resolution history. The entire
framework can be optimized in an end-to-end manner and with a single unified
Diffusion Transformer (DiT). Extensive experiments demonstrate that our method
supports generating high-quality 5-second (up to 10-second) videos at 768p
resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models
will be open-sourced at https://pyramid-flow.github.io.Summary
AI-Generated Summary