Magie 1-op-1: Het Genereren van Video Clips van één Minuut binnen één Minuut
Magic 1-For-1: Generating One Minute Video Clips within One Minute
February 11, 2025
Auteurs: Hongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou
cs.AI
Samenvatting
In dit technische rapport presenteren we Magic 1-For-1 (Magic141), een efficiënt videogeneratiemodel met geoptimaliseerd geheugenverbruik en inferentievertraging. Het belangrijkste idee is eenvoudig: de tekst-naar-video generatietaak opsplitsen in twee afzonderlijke eenvoudigere taken voor diffusiestapdestillatie, namelijk tekst-naar-afbeeldingsgeneratie en afbeeldings-naar-videogeneratie. We verifiëren dat met hetzelfde optimalisatiealgoritme de afbeeldings-naar-videotaak inderdaad gemakkelijker te convergeren is dan de tekst-naar-videotaak. We verkennen ook een reeks optimalisatietrucjes om de rekenkundige kosten van het trainen van de afbeeldings-naar-video (I2V) modellen te verminderen vanuit drie aspecten: 1) modelconvergentieversnelling door het gebruik van een multimodale voorwaardelijke injectie; 2) inferentievertragingversnelling door het toepassen van een adversiële stapdestillatie, en 3) optimalisatie van inferentiegeheugenkosten met parametersparsificatie. Met behulp van deze technieken zijn we in staat om 5-seconden videoclips binnen 3 seconden te genereren. Door een testtijd schuifraam toe te passen, kunnen we een minuut lange video genereren binnen één minuut met aanzienlijk verbeterde visuele kwaliteit en bewegingsdynamiek, waarbij gemiddeld minder dan 1 seconde wordt besteed aan het genereren van videoclips van 1 seconde. We voeren een reeks verkennende onderzoeken uit om de optimale afweging tussen rekenkundige kosten en videokwaliteit tijdens diffusiestapdestillatie te vinden en hopen dat dit een goed basismodel kan zijn voor open-source verkenningen. De code en de modelgewichten zijn beschikbaar op https://github.com/DA-Group-PKU/Magic-1-For-1.
English
In this technical report, we present Magic 1-For-1 (Magic141), an efficient
video generation model with optimized memory consumption and inference latency.
The key idea is simple: factorize the text-to-video generation task into two
separate easier tasks for diffusion step distillation, namely text-to-image
generation and image-to-video generation. We verify that with the same
optimization algorithm, the image-to-video task is indeed easier to converge
over the text-to-video task. We also explore a bag of optimization tricks to
reduce the computational cost of training the image-to-video (I2V) models from
three aspects: 1) model convergence speedup by using a multi-modal prior
condition injection; 2) inference latency speed up by applying an adversarial
step distillation, and 3) inference memory cost optimization with parameter
sparsification. With those techniques, we are able to generate 5-second video
clips within 3 seconds. By applying a test time sliding window, we are able to
generate a minute-long video within one minute with significantly improved
visual quality and motion dynamics, spending less than 1 second for generating
1 second video clips on average. We conduct a series of preliminary
explorations to find out the optimal tradeoff between computational cost and
video quality during diffusion step distillation and hope this could be a good
foundation model for open-source explorations. The code and the model weights
are available at https://github.com/DA-Group-PKU/Magic-1-For-1.Summary
AI-Generated Summary