ChatPaper.aiChatPaper

Lumina-Video: Generación eficiente y flexible de video con Multi-escala Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
Autores: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

Resumen

Los avances recientes han establecido a los Transformadores de Difusión (DiTs) como un marco dominante en la modelización generativa. Basándose en este éxito, Lumina-Next logra un rendimiento excepcional en la generación de imágenes fotorrealistas con Next-DiT. Sin embargo, su potencial para la generación de videos permanece en gran medida sin explotar, con desafíos significativos en la modelización de la complejidad espacio-temporal inherente a los datos de video. Para abordar esto, presentamos Lumina-Video, un marco que aprovecha las fortalezas de Next-DiT mientras introduce soluciones adaptadas para la síntesis de video. Lumina-Video incorpora una arquitectura Multi-escala Next-DiT, que aprende conjuntamente múltiples parches para mejorar tanto la eficiencia como la flexibilidad. Al incorporar el puntaje de movimiento como condición explícita, Lumina-Video también permite un control directo del grado dinámico de los videos generados. Combinado con un esquema de entrenamiento progresivo con una resolución y FPS cada vez mayores, y un esquema de entrenamiento de múltiples fuentes con datos naturales y sintéticos mixtos, Lumina-Video logra una calidad estética notable y una suavidad de movimiento con una alta eficiencia de entrenamiento e inferencia. Además, proponemos Lumina-V2A, un modelo de video a audio basado en Next-DiT, para crear sonidos sincronizados para los videos generados. Los códigos se encuentran disponibles en https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF142February 11, 2025