ChatPaper.aiChatPaper

Correspondência de Fluxo Piramidal para Modelagem Generativa Eficiente de Vídeos

Pyramidal Flow Matching for Efficient Video Generative Modeling

October 8, 2024
Autores: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI

Resumo

A geração de vídeo requer modelar um vasto espaço espaço-temporal, o que exige significativos recursos computacionais e uso de dados. Para reduzir a complexidade, as abordagens predominantes empregam uma arquitetura em cascata para evitar o treinamento direto com resolução total. Apesar de reduzir as demandas computacionais, a otimização separada de cada subestágio dificulta o compartilhamento de conhecimento e sacrifica a flexibilidade. Este trabalho introduz um algoritmo unificado de correspondência de fluxo piramidal. Ele reinterpreta a trajetória original de remoção de ruído como uma série de estágios piramidais, onde apenas o estágio final opera na resolução total, permitindo assim uma modelagem gerativa de vídeo mais eficiente. Através do nosso design sofisticado, os fluxos de diferentes estágios piramidais podem ser interligados para manter a continuidade. Além disso, desenvolvemos a geração de vídeo autoregressiva com uma pirâmide temporal para comprimir o histórico de resolução total. Todo o framework pode ser otimizado de ponta a ponta e com um único Transformer de Difusão unificado (DiT). Experimentos extensivos demonstram que nosso método suporta a geração de vídeos de alta qualidade de 5 segundos (até 10 segundos) em resolução de 768p e 24 FPS em 20,7 mil horas de treinamento de GPU A100. Todo o código e modelos serão disponibilizados em código aberto em https://pyramid-flow.github.io.
English
Video generation requires modeling a vast spatiotemporal space, which demands significant computational resources and data usage. To reduce the complexity, the prevailing approaches employ a cascaded architecture to avoid direct training with full resolution. Despite reducing computational demands, the separate optimization of each sub-stage hinders knowledge sharing and sacrifices flexibility. This work introduces a unified pyramidal flow matching algorithm. It reinterprets the original denoising trajectory as a series of pyramid stages, where only the final stage operates at the full resolution, thereby enabling more efficient video generative modeling. Through our sophisticated design, the flows of different pyramid stages can be interlinked to maintain continuity. Moreover, we craft autoregressive video generation with a temporal pyramid to compress the full-resolution history. The entire framework can be optimized in an end-to-end manner and with a single unified Diffusion Transformer (DiT). Extensive experiments demonstrate that our method supports generating high-quality 5-second (up to 10-second) videos at 768p resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models will be open-sourced at https://pyramid-flow.github.io.

Summary

AI-Generated Summary

PDF402November 16, 2024