ChatPaper.aiChatPaper

Corrispondenza di flusso piramidale per una modellazione generativa efficiente dei video

Pyramidal Flow Matching for Efficient Video Generative Modeling

October 8, 2024
Autori: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI

Abstract

La generazione di video richiede la modellazione di un vasto spazio spaziotemporale, che richiede significativi risorse computazionali e utilizzo dei dati. Per ridurre la complessità, gli approcci prevalenti impiegano un'architettura a cascata per evitare l'addestramento diretto con risoluzione completa. Nonostante la riduzione delle richieste computazionali, l'ottimizzazione separata di ciascuna sotto-fase ostacola la condivisione delle conoscenze e sacrifica la flessibilità. Questo lavoro introduce un algoritmo unificato di corrispondenza di flusso piramidale. Rinterpreta la traiettoria originale di denoising come una serie di fasi piramidali, in cui solo la fase finale opera a piena risoluzione, consentendo così una modellazione generativa di video più efficiente. Attraverso il nostro sofisticato design, i flussi delle diverse fasi piramidali possono essere interconnessi per mantenere la continuità. Inoltre, progettiamo la generazione di video autoregressiva con una piramide temporale per comprimere la storia a piena risoluzione. L'intero framework può essere ottimizzato in modo end-to-end e con un singolo Diffusion Transformer (DiT) unificato. Estesi esperimenti dimostrano che il nostro metodo supporta la generazione di video di alta qualità di 5 secondi (fino a 10 secondi) a una risoluzione di 768p e 24 FPS entro 20,7k ore di addestramento GPU A100. Tutto il codice e i modelli saranno resi open-source su https://pyramid-flow.github.io.
English
Video generation requires modeling a vast spatiotemporal space, which demands significant computational resources and data usage. To reduce the complexity, the prevailing approaches employ a cascaded architecture to avoid direct training with full resolution. Despite reducing computational demands, the separate optimization of each sub-stage hinders knowledge sharing and sacrifices flexibility. This work introduces a unified pyramidal flow matching algorithm. It reinterprets the original denoising trajectory as a series of pyramid stages, where only the final stage operates at the full resolution, thereby enabling more efficient video generative modeling. Through our sophisticated design, the flows of different pyramid stages can be interlinked to maintain continuity. Moreover, we craft autoregressive video generation with a temporal pyramid to compress the full-resolution history. The entire framework can be optimized in an end-to-end manner and with a single unified Diffusion Transformer (DiT). Extensive experiments demonstrate that our method supports generating high-quality 5-second (up to 10-second) videos at 768p resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models will be open-sourced at https://pyramid-flow.github.io.
PDF412November 16, 2024