Pyramidale Flussanpassung für effiziente Video-generative Modellierung
Pyramidal Flow Matching for Efficient Video Generative Modeling
October 8, 2024
Autoren: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI
Zusammenfassung
Die Videogenerierung erfordert die Modellierung eines umfangreichen raumzeitlichen Raums, was erhebliche Rechenressourcen und Datenverwendung erfordert. Um die Komplexität zu reduzieren, verwenden die vorherrschenden Ansätze eine gestufte Architektur, um ein direktes Training mit voller Auflösung zu vermeiden. Obwohl die Reduzierung der Rechenanforderungen, die separate Optimierung jedes Unterabschnitts das Teilen von Wissen behindert und die Flexibilität einschränkt. Diese Arbeit stellt einen vereinheitlichten pyramidenförmigen Flussabgleichsalgorithmus vor. Er interpretiert die ursprüngliche Rauschunterdrückungsbahn als eine Reihe von Pyramidenstufen neu, wobei nur die letzte Stufe mit voller Auflösung arbeitet, was eine effizientere Videogenerierungsmodellierung ermöglicht. Durch unser ausgeklügeltes Design können die Flüsse verschiedener Pyramidenstufen miteinander verknüpft werden, um die Kontinuität aufrechtzuerhalten. Darüber hinaus gestalten wir die autoregressive Videogenerierung mit einer zeitlichen Pyramide, um die vollständige Auflösungsgeschichte zu komprimieren. Das gesamte Framework kann auf eine durchgängige Weise und mit einem einzigen vereinheitlichten Diffusions-Transformer (DiT) optimiert werden. Umfangreiche Experimente zeigen, dass unsere Methode die Generierung hochwertiger 5-Sekunden- (bis zu 10-Sekunden-) Videos mit einer Auflösung von 768p und 24 FPS innerhalb von 20,7k A100 GPU-Trainingsstunden unterstützt. Der gesamte Code und die Modelle werden unter https://pyramid-flow.github.io open-source veröffentlicht.
English
Video generation requires modeling a vast spatiotemporal space, which demands
significant computational resources and data usage. To reduce the complexity,
the prevailing approaches employ a cascaded architecture to avoid direct
training with full resolution. Despite reducing computational demands, the
separate optimization of each sub-stage hinders knowledge sharing and
sacrifices flexibility. This work introduces a unified pyramidal flow matching
algorithm. It reinterprets the original denoising trajectory as a series of
pyramid stages, where only the final stage operates at the full resolution,
thereby enabling more efficient video generative modeling. Through our
sophisticated design, the flows of different pyramid stages can be interlinked
to maintain continuity. Moreover, we craft autoregressive video generation with
a temporal pyramid to compress the full-resolution history. The entire
framework can be optimized in an end-to-end manner and with a single unified
Diffusion Transformer (DiT). Extensive experiments demonstrate that our method
supports generating high-quality 5-second (up to 10-second) videos at 768p
resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models
will be open-sourced at https://pyramid-flow.github.io.Summary
AI-Generated Summary