ChatPaper.aiChatPaper

Lumina-Video : Génération de vidéos efficace et flexible avec le modèle Multi-échelle Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
Auteurs: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

Résumé

Les récents progrès ont établi les Transformateurs de Diffusion (DiTs) comme un cadre dominant en modélisation générative. S'appuyant sur ce succès, Lumina-Next atteint des performances exceptionnelles dans la génération d'images photoréalistes avec Next-DiT. Cependant, son potentiel pour la génération de vidéos reste largement inexploité, avec des défis significatifs dans la modélisation de la complexité spatiotemporelle inhérente aux données vidéo. Pour y remédier, nous présentons Lumina-Video, un cadre qui exploite les forces de Next-DiT tout en introduisant des solutions adaptées à la synthèse vidéo. Lumina-Video intègre une architecture Multi-échelle Next-DiT, qui apprend conjointement plusieurs patchifications pour améliorer à la fois l'efficacité et la flexibilité. En incorporant le score de mouvement comme condition explicite, Lumina-Video permet également un contrôle direct du degré de dynamisme des vidéos générées. Associé à un schéma d'entraînement progressif avec une résolution et un FPS de plus en plus élevés, et un schéma d'entraînement multi-source avec des données naturelles et synthétiques mixtes, Lumina-Video atteint une qualité esthétique remarquable et une fluidité de mouvement à une efficacité d'entraînement et d'inférence élevée. Nous proposons également Lumina-V2A, un modèle vidéo-son basé sur Next-DiT, pour créer des sons synchronisés pour les vidéos générées. Les codes sont disponibles sur https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF142February 11, 2025