Coincidencia de Flujo Piramidal para Modelado Generativo Eficiente de Video

Resumen

La generación de video requiere modelar un vasto espacio espacio-temporal, lo que demanda significativos recursos computacionales y uso de datos. Para reducir la complejidad, los enfoques predominantes emplean una arquitectura en cascada para evitar el entrenamiento directo con resolución completa. A pesar de reducir las demandas computacionales, la optimización separada de cada subetapa obstaculiza el intercambio de conocimientos y sacrifica la flexibilidad. Este trabajo introduce un algoritmo unificado de coincidencia de flujo piramidal. Reinterpreta la trayectoria original de eliminación de ruido como una serie de etapas piramidales, donde solo la etapa final opera a plena resolución, permitiendo así un modelado generativo de video más eficiente. A través de nuestro diseño sofisticado, los flujos de diferentes etapas piramidales pueden estar interconectados para mantener la continuidad. Además, creamos generación de video autoregresiva con una pirámide temporal para comprimir la historia a plena resolución. Todo el marco se puede optimizar de manera integral y con un único Transformador de Difusión unificado (DiT). Experimentos extensos demuestran que nuestro método es capaz de generar videos de alta calidad de 5 segundos (hasta 10 segundos) a una resolución de 768p y 24 FPS en 20.7k horas de entrenamiento en GPU A100. Todo el código y los modelos se compartirán en código abierto en https://pyramid-flow.github.io.

English

Video generation requires modeling a vast spatiotemporal space, which demands significant computational resources and data usage. To reduce the complexity, the prevailing approaches employ a cascaded architecture to avoid direct training with full resolution. Despite reducing computational demands, the separate optimization of each sub-stage hinders knowledge sharing and sacrifices flexibility. This work introduces a unified pyramidal flow matching algorithm. It reinterprets the original denoising trajectory as a series of pyramid stages, where only the final stage operates at the full resolution, thereby enabling more efficient video generative modeling. Through our sophisticated design, the flows of different pyramid stages can be interlinked to maintain continuity. Moreover, we craft autoregressive video generation with a temporal pyramid to compress the full-resolution history. The entire framework can be optimized in an end-to-end manner and with a single unified Diffusion Transformer (DiT). Extensive experiments demonstrate that our method supports generating high-quality 5-second (up to 10-second) videos at 768p resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models will be open-sourced at https://pyramid-flow.github.io.

Coincidencia de Flujo Piramidal para Modelado Generativo Eficiente de Video

Pyramidal Flow Matching for Efficient Video Generative Modeling

Resumen

Support