Lumina-Video: Generación eficiente y flexible de video con Multi-escala Next-DiT

Resumen

Los avances recientes han establecido a los Transformadores de Difusión (DiTs) como un marco dominante en la modelización generativa. Basándose en este éxito, Lumina-Next logra un rendimiento excepcional en la generación de imágenes fotorrealistas con Next-DiT. Sin embargo, su potencial para la generación de videos permanece en gran medida sin explotar, con desafíos significativos en la modelización de la complejidad espacio-temporal inherente a los datos de video. Para abordar esto, presentamos Lumina-Video, un marco que aprovecha las fortalezas de Next-DiT mientras introduce soluciones adaptadas para la síntesis de video. Lumina-Video incorpora una arquitectura Multi-escala Next-DiT, que aprende conjuntamente múltiples parches para mejorar tanto la eficiencia como la flexibilidad. Al incorporar el puntaje de movimiento como condición explícita, Lumina-Video también permite un control directo del grado dinámico de los videos generados. Combinado con un esquema de entrenamiento progresivo con una resolución y FPS cada vez mayores, y un esquema de entrenamiento de múltiples fuentes con datos naturales y sintéticos mixtos, Lumina-Video logra una calidad estética notable y una suavidad de movimiento con una alta eficiencia de entrenamiento e inferencia. Además, proponemos Lumina-V2A, un modelo de video a audio basado en Next-DiT, para crear sonidos sincronizados para los videos generados. Los códigos se encuentran disponibles en https://www.github.com/Alpha-VLLM/Lumina-Video.

English

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Lumina-Video: Generación eficiente y flexible de video con Multi-escala Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Resumen

Support