Magie 1-op-1: Het Genereren van Video Clips van één Minuut binnen één Minuut

Samenvatting

In dit technische rapport presenteren we Magic 1-For-1 (Magic141), een efficiënt videogeneratiemodel met geoptimaliseerd geheugenverbruik en inferentievertraging. Het belangrijkste idee is eenvoudig: de tekst-naar-video generatietaak opsplitsen in twee afzonderlijke eenvoudigere taken voor diffusiestapdestillatie, namelijk tekst-naar-afbeeldingsgeneratie en afbeeldings-naar-videogeneratie. We verifiëren dat met hetzelfde optimalisatiealgoritme de afbeeldings-naar-videotaak inderdaad gemakkelijker te convergeren is dan de tekst-naar-videotaak. We verkennen ook een reeks optimalisatietrucjes om de rekenkundige kosten van het trainen van de afbeeldings-naar-video (I2V) modellen te verminderen vanuit drie aspecten: 1) modelconvergentieversnelling door het gebruik van een multimodale voorwaardelijke injectie; 2) inferentievertragingversnelling door het toepassen van een adversiële stapdestillatie, en 3) optimalisatie van inferentiegeheugenkosten met parametersparsificatie. Met behulp van deze technieken zijn we in staat om 5-seconden videoclips binnen 3 seconden te genereren. Door een testtijd schuifraam toe te passen, kunnen we een minuut lange video genereren binnen één minuut met aanzienlijk verbeterde visuele kwaliteit en bewegingsdynamiek, waarbij gemiddeld minder dan 1 seconde wordt besteed aan het genereren van videoclips van 1 seconde. We voeren een reeks verkennende onderzoeken uit om de optimale afweging tussen rekenkundige kosten en videokwaliteit tijdens diffusiestapdestillatie te vinden en hopen dat dit een goed basismodel kan zijn voor open-source verkenningen. De code en de modelgewichten zijn beschikbaar op https://github.com/DA-Group-PKU/Magic-1-For-1.

English

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

Magie 1-op-1: Het Genereren van Video Clips van één Minuut binnen één Minuut

Magic 1-For-1: Generating One Minute Video Clips within One Minute

Samenvatting

Support