Пирамидальное сопоставление потоков для эффективного генеративного моделирования видео
Pyramidal Flow Matching for Efficient Video Generative Modeling
October 8, 2024
Авторы: Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin
cs.AI
Аннотация
Генерация видео требует моделирования обширного пространства во времени и пространстве, что требует значительных вычислительных ресурсов и использования данных. Для уменьшения сложности преобладающие подходы используют каскадную архитектуру, чтобы избежать прямого обучения с полным разрешением. Несмотря на уменьшение вычислительных требований, отдельная оптимизация каждого подэтапа затрудняет обмен знаниями и жертвует гибкостью. В данной работе представлен единый алгоритм сопоставления пирамидального потока. Он переосмысливает исходную траекторию подавления шума как серию пирамидальных этапов, где только финальный этап работает на полном разрешении, что позволяет более эффективное моделирование видео. Благодаря нашему изощренному дизайну, потоки различных пирамидальных этапов могут быть взаимосвязаны для поддержания непрерывности. Более того, мы создаем авторегрессивную генерацию видео с временной пирамидой для сжатия истории с полным разрешением. Вся структура может быть оптимизирована в едином порядке и с помощью единого Диффузионного Трансформера (DiT). Обширные эксперименты демонстрируют, что наш метод поддерживает генерацию видео высокого качества длительностью 5 секунд (до 10 секунд) с разрешением 768p и частотой кадров 24 FPS за 20,7 тыс. часов обучения на GPU A100. Весь код и модели будут опубликованы на https://pyramid-flow.github.io.
English
Video generation requires modeling a vast spatiotemporal space, which demands
significant computational resources and data usage. To reduce the complexity,
the prevailing approaches employ a cascaded architecture to avoid direct
training with full resolution. Despite reducing computational demands, the
separate optimization of each sub-stage hinders knowledge sharing and
sacrifices flexibility. This work introduces a unified pyramidal flow matching
algorithm. It reinterprets the original denoising trajectory as a series of
pyramid stages, where only the final stage operates at the full resolution,
thereby enabling more efficient video generative modeling. Through our
sophisticated design, the flows of different pyramid stages can be interlinked
to maintain continuity. Moreover, we craft autoregressive video generation with
a temporal pyramid to compress the full-resolution history. The entire
framework can be optimized in an end-to-end manner and with a single unified
Diffusion Transformer (DiT). Extensive experiments demonstrate that our method
supports generating high-quality 5-second (up to 10-second) videos at 768p
resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models
will be open-sourced at https://pyramid-flow.github.io.Summary
AI-Generated Summary