Magia 1-Per-1: Generazione di Clip Video di un Minuto in un Minuto
Magic 1-For-1: Generating One Minute Video Clips within One Minute
February 11, 2025
Autori: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI
Abstract
In questo rapporto tecnico, presentiamo Magic 1-For-1 (Magic141), un modello efficiente di generazione video con consumo di memoria ottimizzato e latenza di inferenza ridotta. L'idea chiave è semplice: suddividere il compito di generazione testo-video in due compiti separati più semplici per la distillazione del passaggio di diffusione, ovvero la generazione di immagini da testo e la generazione di video da immagini. Verifichiamo che con lo stesso algoritmo di ottimizzazione, il compito di generazione di video da immagini è effettivamente più facile da convergere rispetto al compito di generazione di video da testo. Esploriamo anche una serie di trucchi di ottimizzazione per ridurre il costo computazionale del training dei modelli immagine-video (I2V) da tre punti di vista: 1) accelerazione della convergenza del modello utilizzando un'iniezione di condizione precedente multimodale; 2) accelerazione della latenza di inferenza mediante l'applicazione di una distillazione del passaggio avversario, e 3) ottimizzazione del costo di memoria di inferenza con sparizione dei parametri. Con queste tecniche, siamo in grado di generare clip video di 5 secondi in 3 secondi. Applicando una finestra temporale scorrevole al momento del test, siamo in grado di generare un video di un minuto in un minuto con una qualità visiva significativamente migliorata e dinamiche di movimento, impiegando meno di 1 secondo per generare clip video di 1 secondo in media. Conduciamo una serie di esplorazioni preliminari per trovare il compromesso ottimale tra costo computazionale e qualità video durante la distillazione del passaggio di diffusione e speriamo che possa essere un buon modello di base per esplorazioni open-source. Il codice e i pesi del modello sono disponibili su https://github.com/DA-Group-PKU/Magic-1-For-1.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient
video generation model with optimized memory consumption and inference latency.
The key idea is simple: factorize the text-to-video generation task into two
separate easier tasks for diffusion step distillation, namely text-to-image
generation and image-to-video generation. We verify that with the same
optimization algorithm, the image-to-video task is indeed easier to converge
over the text-to-video task. We also explore a bag of optimization tricks to
reduce the computational cost of training the image-to-video (I2V) models from
three aspects: 1) model convergence speedup by using a multi-modal prior
condition injection; 2) inference latency speed up by applying an adversarial
step distillation, and 3) inference memory cost optimization with parameter
sparsification. With those techniques, we are able to generate 5-second video
clips within 3 seconds. By applying a test time sliding window, we are able to
generate a minute-long video within one minute with significantly improved
visual quality and motion dynamics, spending less than 1 second for generating
1 second video clips on average. We conduct a series of preliminary
explorations to find out the optimal tradeoff between computational cost and
video quality during diffusion step distillation and hope this could be a good
foundation model for open-source explorations. The code and the model weights
are available at https://github.com/DA-Group-PKU/Magic-1-For-1.Summary
AI-Generated Summary