Магия 1-в-1: Генерация видеороликов продолжительностью одну минуту за одну минуту

Аннотация

В данном техническом отчете мы представляем Magic 1-For-1 (Magic141), эффективную модель генерации видео с оптимизированным потреблением памяти и задержкой вывода. Основная идея проста: факторизация задачи генерации текста в видео на два отдельных более простых этапа для дистилляции шага диффузии, а именно генерация текста в изображение и изображения в видео. Мы подтверждаем, что при использовании того же алгоритма оптимизации задача изображения в видео действительно легче сходится, чем задача текста в видео. Мы также исследуем набор трюков оптимизации для снижения вычислительных затрат на обучение моделей изображения в видео (I2V) с трех аспектов: 1) ускорение сходимости модели с помощью инъекции мультимодального априорного условия; 2) ускорение задержки вывода путем применения адверсариальной дистилляции шага и 3) оптимизация затрат памяти вывода с помощью разрежения параметров. С помощью этих техник мы можем генерировать видеоролики длиной 5 секунд менее чем за 3 секунды. Применяя скользящее окно времени тестирования, мы можем создавать видео длиной в минуту менее чем за минуту с значительно улучшенным визуальным качеством и динамикой движения, затрачивая менее 1 секунды на создание видеороликов длительностью в 1 секунду в среднем. Мы проводим ряд предварительных исследований, чтобы выяснить оптимальный баланс между вычислительными затратами и качеством видео во время дистилляции шага диффузии и надеемся, что это может стать хорошей моделью-основой для исследований с открытым исходным кодом. Код и веса модели доступны на https://github.com/DA-Group-PKU/Magic-1-For-1.

English

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

Магия 1-в-1: Генерация видеороликов продолжительностью одну минуту за одну минуту

Magic 1-For-1: Generating One Minute Video Clips within One Minute

Аннотация

Support