Magia 1-Para-1: Gerando Videoclipes de Um Minuto em Apenas Um Minuto
Magic 1-For-1: Generating One Minute Video Clips within One Minute
February 11, 2025
Autores: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI
Resumo
Neste relatório técnico, apresentamos o Magic 1-For-1 (Magic141), um modelo eficiente de geração de vídeo com consumo de memória otimizado e latência de inferência. A ideia chave é simples: fatorizar a tarefa de geração de texto para vídeo em duas tarefas separadas mais simples para destilação de etapa de difusão, nomeadamente geração de texto para imagem e geração de imagem para vídeo. Verificamos que, com o mesmo algoritmo de otimização, a tarefa de imagem para vídeo é de fato mais fácil de convergir do que a tarefa de texto para vídeo. Também exploramos um conjunto de truques de otimização para reduzir o custo computacional do treinamento dos modelos de imagem para vídeo (I2V) a partir de três aspectos: 1) aceleração da convergência do modelo usando injeção de condição de prior multimodal; 2) aceleração da latência de inferência aplicando uma destilação de etapa adversarial e 3) otimização do custo de memória de inferência com esparsificação de parâmetros. Com essas técnicas, somos capazes de gerar clipes de vídeo de 5 segundos em 3 segundos. Ao aplicar uma janela deslizante de tempo de teste, somos capazes de gerar um vídeo de um minuto em um minuto com qualidade visual e dinâmica de movimento significativamente melhoradas, gastando menos de 1 segundo para gerar clipes de vídeo de 1 segundo em média. Realizamos uma série de explorações preliminares para descobrir o compromisso ideal entre custo computacional e qualidade de vídeo durante a destilação da etapa de difusão e esperamos que este possa ser um bom modelo de base para explorações de código aberto. O código e os pesos do modelo estão disponíveis em https://github.com/DA-Group-PKU/Magic-1-For-1.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient
video generation model with optimized memory consumption and inference latency.
The key idea is simple: factorize the text-to-video generation task into two
separate easier tasks for diffusion step distillation, namely text-to-image
generation and image-to-video generation. We verify that with the same
optimization algorithm, the image-to-video task is indeed easier to converge
over the text-to-video task. We also explore a bag of optimization tricks to
reduce the computational cost of training the image-to-video (I2V) models from
three aspects: 1) model convergence speedup by using a multi-modal prior
condition injection; 2) inference latency speed up by applying an adversarial
step distillation, and 3) inference memory cost optimization with parameter
sparsification. With those techniques, we are able to generate 5-second video
clips within 3 seconds. By applying a test time sliding window, we are able to
generate a minute-long video within one minute with significantly improved
visual quality and motion dynamics, spending less than 1 second for generating
1 second video clips on average. We conduct a series of preliminary
explorations to find out the optimal tradeoff between computational cost and
video quality during diffusion step distillation and hope this could be a good
foundation model for open-source explorations. The code and the model weights
are available at https://github.com/DA-Group-PKU/Magic-1-For-1.Summary
AI-Generated Summary