Lumina-Video: Generazione efficiente e flessibile di video con Multi-scale Next-DiT

Abstract

I recenti progressi hanno stabilito i Diffusion Transformers (DiTs) come un framework dominante nella modellazione generativa. Sfruttando questo successo, Lumina-Next raggiunge prestazioni eccezionali nella generazione di immagini fotorealistiche con Next-DiT. Tuttavia, il suo potenziale per la generazione di video rimane in gran parte inesplorato, con significativi ostacoli nella modellazione della complessità spazio-temporale intrinseca ai dati video. Per affrontare ciò, presentiamo Lumina-Video, un framework che sfrutta i punti di forza di Next-DiT introducendo soluzioni ad hoc per la sintesi video. Lumina-Video incorpora un'architettura Multi-scale Next-DiT, che apprende congiuntamente diverse patchification per migliorare sia l'efficienza che la flessibilità. Integrando lo score del movimento come condizione esplicita, Lumina-Video consente anche un controllo diretto del grado dinamico dei video generati. Combinato con uno schema di addestramento progressivo con risoluzione e FPS sempre più elevati, e uno schema di addestramento multi-sorgente con dati naturali e sintetici misti, Lumina-Video raggiunge notevole qualità estetica e fluidità del movimento con elevata efficienza durante l'addestramento e l'inferenza. Proponiamo inoltre Lumina-V2A, un modello video-audio basato su Next-DiT, per creare suoni sincronizzati per i video generati. I codici sono disponibili su https://www.github.com/Alpha-VLLM/Lumina-Video.

English

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Lumina-Video: Generazione efficiente e flessibile di video con Multi-scale Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Abstract

Summary

Support

Support