Magie 1-pour-1 : Génération de clips vidéo d'une minute en une minute

papers.abstract

Dans ce rapport technique, nous présentons Magic 1-For-1 (Magic141), un modèle efficace de génération vidéo avec une consommation mémoire optimisée et une latence d'inférence réduite. L'idée clé est simple : factoriser la tâche de génération de texte en vidéo en deux tâches plus simples pour la distillation des étapes de diffusion, à savoir la génération de texte en image et l'image en vidéo. Nous vérifions qu'avec le même algorithme d'optimisation, la tâche image-vidéo est effectivement plus facile à converger que la tâche texte-vidéo. Nous explorons également un ensemble d'astuces d'optimisation pour réduire le coût computationnel de l'entraînement des modèles image-vidéo (I2V) selon trois aspects : 1) accélération de la convergence du modèle en injectant une condition préalable multimodale ; 2) accélération de la latence d'inférence en appliquant une distillation d'étape adversaire, et 3) optimisation du coût mémoire d'inférence avec la sparsification des paramètres. Grâce à ces techniques, nous sommes capables de générer des clips vidéo de 5 secondes en moins de 3 secondes. En appliquant une fenêtre temporelle glissante au moment du test, nous sommes en mesure de générer une vidéo d'une minute en moins d'une minute avec une qualité visuelle et une dynamique de mouvement considérablement améliorées, en dépensant moins d'une seconde pour générer en moyenne des clips vidéo d'une seconde. Nous menons une série d'explorations préliminaires pour trouver le compromis optimal entre le coût computationnel et la qualité vidéo lors de la distillation des étapes de diffusion, et espérons que cela pourrait constituer un bon modèle de base pour des explorations en open source. Le code et les poids du modèle sont disponibles sur https://github.com/DA-Group-PKU/Magic-1-For-1.

English

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

Magie 1-pour-1 : Génération de clips vidéo d'une minute en une minute

Magic 1-For-1: Generating One Minute Video Clips within One Minute

papers.abstract

Support