Lumina-Video : Génération de vidéos efficace et flexible avec le modèle Multi-échelle Next-DiT
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
February 10, 2025
Auteurs: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI
Résumé
Les récents progrès ont établi les Transformateurs de Diffusion (DiTs) comme un cadre dominant en modélisation générative. S'appuyant sur ce succès, Lumina-Next atteint des performances exceptionnelles dans la génération d'images photoréalistes avec Next-DiT. Cependant, son potentiel pour la génération de vidéos reste largement inexploité, avec des défis significatifs dans la modélisation de la complexité spatiotemporelle inhérente aux données vidéo. Pour y remédier, nous présentons Lumina-Video, un cadre qui exploite les forces de Next-DiT tout en introduisant des solutions adaptées à la synthèse vidéo. Lumina-Video intègre une architecture Multi-échelle Next-DiT, qui apprend conjointement plusieurs patchifications pour améliorer à la fois l'efficacité et la flexibilité. En incorporant le score de mouvement comme condition explicite, Lumina-Video permet également un contrôle direct du degré de dynamisme des vidéos générées. Associé à un schéma d'entraînement progressif avec une résolution et un FPS de plus en plus élevés, et un schéma d'entraînement multi-source avec des données naturelles et synthétiques mixtes, Lumina-Video atteint une qualité esthétique remarquable et une fluidité de mouvement à une efficacité d'entraînement et d'inférence élevée. Nous proposons également Lumina-V2A, un modèle vidéo-son basé sur Next-DiT, pour créer des sons synchronisés pour les vidéos générées. Les codes sont disponibles sur https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a
dominant framework in generative modeling. Building on this success,
Lumina-Next achieves exceptional performance in the generation of
photorealistic images with Next-DiT. However, its potential for video
generation remains largely untapped, with significant challenges in modeling
the spatiotemporal complexity inherent to video data. To address this, we
introduce Lumina-Video, a framework that leverages the strengths of Next-DiT
while introducing tailored solutions for video synthesis. Lumina-Video
incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple
patchifications to enhance both efficiency and flexibility. By incorporating
the motion score as an explicit condition, Lumina-Video also enables direct
control of generated videos' dynamic degree. Combined with a progressive
training scheme with increasingly higher resolution and FPS, and a multi-source
training scheme with mixed natural and synthetic data, Lumina-Video achieves
remarkable aesthetic quality and motion smoothness at high training and
inference efficiency. We additionally propose Lumina-V2A, a video-to-audio
model based on Next-DiT, to create synchronized sounds for generated videos.
Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.Summary
AI-Generated Summary