Magie 1-pour-1 : Génération de clips vidéo d'une minute en une minute
Magic 1-For-1: Generating One Minute Video Clips within One Minute
February 11, 2025
Auteurs: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI
Résumé
Dans ce rapport technique, nous présentons Magic 1-For-1 (Magic141), un modèle efficace de génération vidéo avec une consommation mémoire optimisée et une latence d'inférence réduite. L'idée clé est simple : factoriser la tâche de génération de texte en vidéo en deux tâches plus simples pour la distillation des étapes de diffusion, à savoir la génération de texte en image et l'image en vidéo. Nous vérifions qu'avec le même algorithme d'optimisation, la tâche image-vidéo est effectivement plus facile à converger que la tâche texte-vidéo. Nous explorons également un ensemble d'astuces d'optimisation pour réduire le coût computationnel de l'entraînement des modèles image-vidéo (I2V) selon trois aspects : 1) accélération de la convergence du modèle en injectant une condition préalable multimodale ; 2) accélération de la latence d'inférence en appliquant une distillation d'étape adversaire, et 3) optimisation du coût mémoire d'inférence avec la sparsification des paramètres. Grâce à ces techniques, nous sommes capables de générer des clips vidéo de 5 secondes en moins de 3 secondes. En appliquant une fenêtre temporelle glissante au moment du test, nous sommes en mesure de générer une vidéo d'une minute en moins d'une minute avec une qualité visuelle et une dynamique de mouvement considérablement améliorées, en dépensant moins d'une seconde pour générer en moyenne des clips vidéo d'une seconde. Nous menons une série d'explorations préliminaires pour trouver le compromis optimal entre le coût computationnel et la qualité vidéo lors de la distillation des étapes de diffusion, et espérons que cela pourrait constituer un bon modèle de base pour des explorations en open source. Le code et les poids du modèle sont disponibles sur https://github.com/DA-Group-PKU/Magic-1-For-1.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient
video generation model with optimized memory consumption and inference latency.
The key idea is simple: factorize the text-to-video generation task into two
separate easier tasks for diffusion step distillation, namely text-to-image
generation and image-to-video generation. We verify that with the same
optimization algorithm, the image-to-video task is indeed easier to converge
over the text-to-video task. We also explore a bag of optimization tricks to
reduce the computational cost of training the image-to-video (I2V) models from
three aspects: 1) model convergence speedup by using a multi-modal prior
condition injection; 2) inference latency speed up by applying an adversarial
step distillation, and 3) inference memory cost optimization with parameter
sparsification. With those techniques, we are able to generate 5-second video
clips within 3 seconds. By applying a test time sliding window, we are able to
generate a minute-long video within one minute with significantly improved
visual quality and motion dynamics, spending less than 1 second for generating
1 second video clips on average. We conduct a series of preliminary
explorations to find out the optimal tradeoff between computational cost and
video quality during diffusion step distillation and hope this could be a good
foundation model for open-source explorations. The code and the model weights
are available at https://github.com/DA-Group-PKU/Magic-1-For-1.Summary
AI-Generated Summary