ChatPaper.aiChatPaper

Piramidestroomkoppeling voor Efficiënte Video Generatieve Modellering

Pyramidal Flow Matching for Efficient Video Generative Modeling

October 8, 2024
Auteurs: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI

Samenvatting

Het genereren van video's vereist het modelleren van een uitgebreide ruimtetijd, wat aanzienlijke rekenkracht en datagebruik vereist. Om de complexiteit te verminderen, maken de heersende benaderingen gebruik van een trapsgewijze architectuur om directe training met volledige resolutie te vermijden. Ondanks het verminderen van de rekenvereisten, belemmert de afzonderlijke optimalisatie van elke subfase kennisdeling en flexibiliteit. Dit werk introduceert een verenigd piramidaal stroomovereenkomstalgoritme. Het herinterpreteert de oorspronkelijke denoising-trajectorie als een reeks piramidestadia, waarbij alleen het laatste stadium op volledige resolutie werkt, waardoor efficiëntere video-generatiemodellering mogelijk is. Door ons geavanceerde ontwerp kunnen de stromen van verschillende piramidestadia met elkaar worden verbonden om continuïteit te behouden. Bovendien creëren we autoregressieve videogeneratie met een temporele piramide om de volledige resolutiegeschiedenis te comprimeren. Het volledige raamwerk kan op een end-to-end manier worden geoptimaliseerd en met een enkele verenigde Diffusion Transformer (DiT). Uitgebreide experimenten tonen aan dat onze methode het genereren van hoogwaardige video's van 5 seconden (tot 10 seconden) ondersteunt op een resolutie van 768p en 24 FPS binnen 20,7k A100 GPU-trainingsuren. Alle code en modellen zullen open-source beschikbaar zijn op https://pyramid-flow.github.io.
English
Video generation requires modeling a vast spatiotemporal space, which demands significant computational resources and data usage. To reduce the complexity, the prevailing approaches employ a cascaded architecture to avoid direct training with full resolution. Despite reducing computational demands, the separate optimization of each sub-stage hinders knowledge sharing and sacrifices flexibility. This work introduces a unified pyramidal flow matching algorithm. It reinterprets the original denoising trajectory as a series of pyramid stages, where only the final stage operates at the full resolution, thereby enabling more efficient video generative modeling. Through our sophisticated design, the flows of different pyramid stages can be interlinked to maintain continuity. Moreover, we craft autoregressive video generation with a temporal pyramid to compress the full-resolution history. The entire framework can be optimized in an end-to-end manner and with a single unified Diffusion Transformer (DiT). Extensive experiments demonstrate that our method supports generating high-quality 5-second (up to 10-second) videos at 768p resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models will be open-sourced at https://pyramid-flow.github.io.

Summary

AI-Generated Summary

PDF402November 16, 2024