Pyramidale Flussanpassung für effiziente Video-generative Modellierung

Pyramidal Flow Matching for Efficient Video Generative Modeling

October 8, 2024
Autoren: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI

Zusammenfassung

Die Videogenerierung erfordert die Modellierung eines umfangreichen raumzeitlichen Raums, was erhebliche Rechenressourcen und Datenverwendung erfordert. Um die Komplexität zu reduzieren, verwenden die vorherrschenden Ansätze eine gestufte Architektur, um ein direktes Training mit voller Auflösung zu vermeiden. Obwohl die Reduzierung der Rechenanforderungen, die separate Optimierung jedes Unterabschnitts das Teilen von Wissen behindert und die Flexibilität einschränkt. Diese Arbeit stellt einen vereinheitlichten pyramidenförmigen Flussabgleichsalgorithmus vor. Er interpretiert die ursprüngliche Rauschunterdrückungsbahn als eine Reihe von Pyramidenstufen neu, wobei nur die letzte Stufe mit voller Auflösung arbeitet, was eine effizientere Videogenerierungsmodellierung ermöglicht. Durch unser ausgeklügeltes Design können die Flüsse verschiedener Pyramidenstufen miteinander verknüpft werden, um die Kontinuität aufrechtzuerhalten. Darüber hinaus gestalten wir die autoregressive Videogenerierung mit einer zeitlichen Pyramide, um die vollständige Auflösungsgeschichte zu komprimieren. Das gesamte Framework kann auf eine durchgängige Weise und mit einem einzigen vereinheitlichten Diffusions-Transformer (DiT) optimiert werden. Umfangreiche Experimente zeigen, dass unsere Methode die Generierung hochwertiger 5-Sekunden- (bis zu 10-Sekunden-) Videos mit einer Auflösung von 768p und 24 FPS innerhalb von 20,7k A100 GPU-Trainingsstunden unterstützt. Der gesamte Code und die Modelle werden unter https://pyramid-flow.github.io open-source veröffentlicht.
English
Video generation requires modeling a vast spatiotemporal space, which demands significant computational resources and data usage. To reduce the complexity, the prevailing approaches employ a cascaded architecture to avoid direct training with full resolution. Despite reducing computational demands, the separate optimization of each sub-stage hinders knowledge sharing and sacrifices flexibility. This work introduces a unified pyramidal flow matching algorithm. It reinterprets the original denoising trajectory as a series of pyramid stages, where only the final stage operates at the full resolution, thereby enabling more efficient video generative modeling. Through our sophisticated design, the flows of different pyramid stages can be interlinked to maintain continuity. Moreover, we craft autoregressive video generation with a temporal pyramid to compress the full-resolution history. The entire framework can be optimized in an end-to-end manner and with a single unified Diffusion Transformer (DiT). Extensive experiments demonstrate that our method supports generating high-quality 5-second (up to 10-second) videos at 768p resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models will be open-sourced at https://pyramid-flow.github.io.

Summary

AI-Generated Summary

PDF402November 16, 2024