Magie 1-zu-1: Generierung von einminütigen Videoclips innerhalb einer Minute
Magic 1-For-1: Generating One Minute Video Clips within One Minute
February 11, 2025
Autoren: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI
Zusammenfassung
In diesem technischen Bericht präsentieren wir Magic 1-For-1 (Magic141), ein effizientes Videogenerierungsmodell mit optimierter Speichernutzung und Inferenzlatenz. Die Schlüsselidee ist einfach: die Text-zu-Video-Generierungsaufgabe in zwei separate einfachere Aufgaben für die Diffusionsschrittkondensation zu faktorisieren, nämlich Text-zu-Bild-Generierung und Bild-zu-Video-Generierung. Wir bestätigen, dass mit demselben Optimierungsalgorithmus die Bild-zu-Video-Aufgabe tatsächlich einfacher zu konvergieren ist als die Text-zu-Video-Aufgabe. Wir erkunden auch eine Vielzahl von Optimierungstricks, um die Rechenkosten für das Training der Bild-zu-Video (I2V)-Modelle aus drei Aspekten zu reduzieren: 1) Beschleunigung der Modellkonvergenz durch Verwendung einer multimodalen Priorbedingungsinjektion; 2) Beschleunigung der Inferenzlatenz durch Anwendung einer adversariellen Schrittkondensation und 3) Optimierung der Inferenzspeicherkosten durch Parameter-Sparsamkeit. Mit diesen Techniken sind wir in der Lage, 5-Sekunden-Videoausschnitte innerhalb von 3 Sekunden zu generieren. Durch Anwendung eines Testzeit-Schiebefensters können wir ein Video von einer Minute Länge innerhalb einer Minute mit deutlich verbesserter visueller Qualität und Bewegungsdynamik generieren und im Durchschnitt weniger als 1 Sekunde für die Generierung von 1-Sekunden-Videoausschnitten aufwenden. Wir führen eine Reihe von vorläufigen Erkundungen durch, um den optimalen Kompromiss zwischen Rechenkosten und Videoqualität während der Diffusionsschrittkondensation herauszufinden, und hoffen, dass dies ein gutes Grundlagenmodell für Open-Source-Erkundungen sein könnte. Der Code und die Modellgewichte sind unter https://github.com/DA-Group-PKU/Magic-1-For-1 verfügbar.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient
video generation model with optimized memory consumption and inference latency.
The key idea is simple: factorize the text-to-video generation task into two
separate easier tasks for diffusion step distillation, namely text-to-image
generation and image-to-video generation. We verify that with the same
optimization algorithm, the image-to-video task is indeed easier to converge
over the text-to-video task. We also explore a bag of optimization tricks to
reduce the computational cost of training the image-to-video (I2V) models from
three aspects: 1) model convergence speedup by using a multi-modal prior
condition injection; 2) inference latency speed up by applying an adversarial
step distillation, and 3) inference memory cost optimization with parameter
sparsification. With those techniques, we are able to generate 5-second video
clips within 3 seconds. By applying a test time sliding window, we are able to
generate a minute-long video within one minute with significantly improved
visual quality and motion dynamics, spending less than 1 second for generating
1 second video clips on average. We conduct a series of preliminary
explorations to find out the optimal tradeoff between computational cost and
video quality during diffusion step distillation and hope this could be a good
foundation model for open-source explorations. The code and the model weights
are available at https://github.com/DA-Group-PKU/Magic-1-For-1.Summary
AI-Generated Summary