Coincidencia de Flujo Piramidal para Modelado Generativo Eficiente de Video
Pyramidal Flow Matching for Efficient Video Generative Modeling
October 8, 2024
Autores: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI
Resumen
La generación de video requiere modelar un vasto espacio espacio-temporal, lo que demanda significativos recursos computacionales y uso de datos. Para reducir la complejidad, los enfoques predominantes emplean una arquitectura en cascada para evitar el entrenamiento directo con resolución completa. A pesar de reducir las demandas computacionales, la optimización separada de cada subetapa obstaculiza el intercambio de conocimientos y sacrifica la flexibilidad. Este trabajo introduce un algoritmo unificado de coincidencia de flujo piramidal. Reinterpreta la trayectoria original de eliminación de ruido como una serie de etapas piramidales, donde solo la etapa final opera a plena resolución, permitiendo así un modelado generativo de video más eficiente. A través de nuestro diseño sofisticado, los flujos de diferentes etapas piramidales pueden estar interconectados para mantener la continuidad. Además, creamos generación de video autoregresiva con una pirámide temporal para comprimir la historia a plena resolución. Todo el marco se puede optimizar de manera integral y con un único Transformador de Difusión unificado (DiT). Experimentos extensos demuestran que nuestro método es capaz de generar videos de alta calidad de 5 segundos (hasta 10 segundos) a una resolución de 768p y 24 FPS en 20.7k horas de entrenamiento en GPU A100. Todo el código y los modelos se compartirán en código abierto en https://pyramid-flow.github.io.
English
Video generation requires modeling a vast spatiotemporal space, which demands
significant computational resources and data usage. To reduce the complexity,
the prevailing approaches employ a cascaded architecture to avoid direct
training with full resolution. Despite reducing computational demands, the
separate optimization of each sub-stage hinders knowledge sharing and
sacrifices flexibility. This work introduces a unified pyramidal flow matching
algorithm. It reinterprets the original denoising trajectory as a series of
pyramid stages, where only the final stage operates at the full resolution,
thereby enabling more efficient video generative modeling. Through our
sophisticated design, the flows of different pyramid stages can be interlinked
to maintain continuity. Moreover, we craft autoregressive video generation with
a temporal pyramid to compress the full-resolution history. The entire
framework can be optimized in an end-to-end manner and with a single unified
Diffusion Transformer (DiT). Extensive experiments demonstrate that our method
supports generating high-quality 5-second (up to 10-second) videos at 768p
resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models
will be open-sourced at https://pyramid-flow.github.io.Summary
AI-Generated Summary