Appariement de flux pyramidal pour une modélisation générative efficace de vidéos
Pyramidal Flow Matching for Efficient Video Generative Modeling
October 8, 2024
Auteurs: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI
Résumé
La génération de vidéos nécessite de modéliser un vaste espace spatiotemporel, ce qui demande des ressources informatiques et une utilisation de données significatives. Pour réduire la complexité, les approches prédominantes utilisent une architecture en cascade pour éviter l'entraînement direct avec une résolution complète. Malgré la réduction des exigences en termes de calcul, l'optimisation séparée de chaque sous-étape entrave le partage des connaissances et sacrifie la flexibilité. Ce travail présente un algorithme unifié de correspondance de flux pyramidal. Il réinterprète la trajectoire de débruitage d'origine comme une série d'étapes pyramidales, où seule la dernière étape fonctionne à pleine résolution, permettant ainsi une modélisation générative de vidéos plus efficace. Grâce à notre conception sophistiquée, les flux des différentes étapes pyramidales peuvent être interconnectés pour maintenir la continuité. De plus, nous élaborons une génération de vidéos autorégressive avec une pyramide temporelle pour compresser l'historique à pleine résolution. L'ensemble du cadre peut être optimisé de manière bout en bout et avec un seul Transformer de Diffusion unifié (DiT). Des expériences approfondies démontrent que notre méthode prend en charge la génération de vidéos de haute qualité de 5 secondes (jusqu'à 10 secondes) en résolution 768p et 24 FPS en 20,7k heures d'entraînement sur GPU A100. Tout le code et les modèles seront disponibles en open source sur https://pyramid-flow.github.io.
English
Video generation requires modeling a vast spatiotemporal space, which demands
significant computational resources and data usage. To reduce the complexity,
the prevailing approaches employ a cascaded architecture to avoid direct
training with full resolution. Despite reducing computational demands, the
separate optimization of each sub-stage hinders knowledge sharing and
sacrifices flexibility. This work introduces a unified pyramidal flow matching
algorithm. It reinterprets the original denoising trajectory as a series of
pyramid stages, where only the final stage operates at the full resolution,
thereby enabling more efficient video generative modeling. Through our
sophisticated design, the flows of different pyramid stages can be interlinked
to maintain continuity. Moreover, we craft autoregressive video generation with
a temporal pyramid to compress the full-resolution history. The entire
framework can be optimized in an end-to-end manner and with a single unified
Diffusion Transformer (DiT). Extensive experiments demonstrate that our method
supports generating high-quality 5-second (up to 10-second) videos at 768p
resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models
will be open-sourced at https://pyramid-flow.github.io.Summary
AI-Generated Summary