ChatPaper.aiChatPaper

Lumina-Video: Effiziente und flexible Videogenerierung mit Multi-Scale Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
Autoren: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

Zusammenfassung

Jüngste Fortschritte haben die Diffusion Transformers (DiTs) als dominantes Framework in der generativen Modellierung etabliert. Aufbauend auf diesem Erfolg erzielt Lumina-Next eine außergewöhnliche Leistung bei der Erzeugung fotorealistischer Bilder mit Next-DiT. Das Potenzial für die Videogenerierung bleibt jedoch weitgehend ungenutzt, da erhebliche Herausforderungen bei der Modellierung der räumlich-zeitlichen Komplexität, die in Videodaten inhärent ist, bestehen. Um dies zu bewältigen, stellen wir Lumina-Video vor, ein Framework, das die Stärken von Next-DiT nutzt und maßgeschneiderte Lösungen für die Videosynthese einführt. Lumina-Video integriert eine Multi-Scale Next-DiT-Architektur, die gemeinsam mehrere Patchifizierungen lernt, um sowohl Effizienz als auch Flexibilität zu verbessern. Durch die Einbeziehung des Bewegungsscores als explizite Bedingung ermöglicht Lumina-Video auch eine direkte Steuerung des dynamischen Grades der generierten Videos. In Kombination mit einem progressiven Trainingsschema mit zunehmend höherer Auflösung und FPS sowie einem Multi-Source-Trainingsschema mit gemischten natürlichen und synthetischen Daten erzielt Lumina-Video bemerkenswerte ästhetische Qualität und Bewegungsglattheit bei hoher Trainingseffizienz und Inferenzgeschwindigkeit. Darüber hinaus schlagen wir Lumina-V2A vor, ein Video-zu-Audio-Modell auf Basis von Next-DiT, um synchronisierte Geräusche für generierte Videos zu erzeugen. Der Code ist unter https://www.github.com/Alpha-VLLM/Lumina-Video verfügbar.
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF142February 11, 2025