Lumina-Video: Generación eficiente y flexible de video con Multi-escala Next-DiT
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
February 10, 2025
Autores: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI
Resumen
Los avances recientes han establecido a los Transformadores de Difusión (DiTs) como un marco dominante en la modelización generativa. Basándose en este éxito, Lumina-Next logra un rendimiento excepcional en la generación de imágenes fotorrealistas con Next-DiT. Sin embargo, su potencial para la generación de videos permanece en gran medida sin explotar, con desafíos significativos en la modelización de la complejidad espacio-temporal inherente a los datos de video. Para abordar esto, presentamos Lumina-Video, un marco que aprovecha las fortalezas de Next-DiT mientras introduce soluciones adaptadas para la síntesis de video. Lumina-Video incorpora una arquitectura Multi-escala Next-DiT, que aprende conjuntamente múltiples parches para mejorar tanto la eficiencia como la flexibilidad. Al incorporar el puntaje de movimiento como condición explícita, Lumina-Video también permite un control directo del grado dinámico de los videos generados. Combinado con un esquema de entrenamiento progresivo con una resolución y FPS cada vez mayores, y un esquema de entrenamiento de múltiples fuentes con datos naturales y sintéticos mixtos, Lumina-Video logra una calidad estética notable y una suavidad de movimiento con una alta eficiencia de entrenamiento e inferencia. Además, proponemos Lumina-V2A, un modelo de video a audio basado en Next-DiT, para crear sonidos sincronizados para los videos generados. Los códigos se encuentran disponibles en https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a
dominant framework in generative modeling. Building on this success,
Lumina-Next achieves exceptional performance in the generation of
photorealistic images with Next-DiT. However, its potential for video
generation remains largely untapped, with significant challenges in modeling
the spatiotemporal complexity inherent to video data. To address this, we
introduce Lumina-Video, a framework that leverages the strengths of Next-DiT
while introducing tailored solutions for video synthesis. Lumina-Video
incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple
patchifications to enhance both efficiency and flexibility. By incorporating
the motion score as an explicit condition, Lumina-Video also enables direct
control of generated videos' dynamic degree. Combined with a progressive
training scheme with increasingly higher resolution and FPS, and a multi-source
training scheme with mixed natural and synthetic data, Lumina-Video achieves
remarkable aesthetic quality and motion smoothness at high training and
inference efficiency. We additionally propose Lumina-V2A, a video-to-audio
model based on Next-DiT, to create synchronized sounds for generated videos.
Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.Summary
AI-Generated Summary