Magia 1-Por-1: Generando Clips de Video de un Minuto en un Minuto
Magic 1-For-1: Generating One Minute Video Clips within One Minute
February 11, 2025
Autores: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI
Resumen
En este informe técnico, presentamos Magic 1-For-1 (Magic141), un modelo eficiente de generación de video con consumo de memoria optimizado y latencia de inferencia. La idea clave es simple: factorizar la tarea de generación de texto a video en dos tareas separadas más simples para la destilación de pasos de difusión, a saber, generación de texto a imagen y generación de imagen a video. Verificamos que con el mismo algoritmo de optimización, la tarea de imagen a video es de hecho más fácil de converger que la tarea de texto a video. También exploramos un conjunto de trucos de optimización para reducir el costo computacional de entrenar los modelos de imagen a video (I2V) desde tres aspectos: 1) aceleración de la velocidad de convergencia del modelo mediante la inyección de una condición previa multimodal; 2) aceleración de la latencia de inferencia mediante la aplicación de una destilación de pasos adversarios, y 3) optimización del costo de memoria de inferencia con esparsificación de parámetros. Con estas técnicas, podemos generar clips de video de 5 segundos en 3 segundos. Al aplicar una ventana deslizante en tiempo de prueba, podemos generar un video de un minuto en un minuto con una calidad visual y dinámica de movimiento significativamente mejoradas, gastando menos de 1 segundo en promedio para generar clips de video de 1 segundo. Realizamos una serie de exploraciones preliminares para encontrar el equilibrio óptimo entre el costo computacional y la calidad del video durante la destilación de pasos de difusión y esperamos que este pueda ser un buen modelo base para exploraciones de código abierto. El código y los pesos del modelo están disponibles en https://github.com/DA-Group-PKU/Magic-1-For-1.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient
video generation model with optimized memory consumption and inference latency.
The key idea is simple: factorize the text-to-video generation task into two
separate easier tasks for diffusion step distillation, namely text-to-image
generation and image-to-video generation. We verify that with the same
optimization algorithm, the image-to-video task is indeed easier to converge
over the text-to-video task. We also explore a bag of optimization tricks to
reduce the computational cost of training the image-to-video (I2V) models from
three aspects: 1) model convergence speedup by using a multi-modal prior
condition injection; 2) inference latency speed up by applying an adversarial
step distillation, and 3) inference memory cost optimization with parameter
sparsification. With those techniques, we are able to generate 5-second video
clips within 3 seconds. By applying a test time sliding window, we are able to
generate a minute-long video within one minute with significantly improved
visual quality and motion dynamics, spending less than 1 second for generating
1 second video clips on average. We conduct a series of preliminary
explorations to find out the optimal tradeoff between computational cost and
video quality during diffusion step distillation and hope this could be a good
foundation model for open-source explorations. The code and the model weights
are available at https://github.com/DA-Group-PKU/Magic-1-For-1.Summary
AI-Generated Summary