Lumina-Video: Effiziente und flexible Videogenerierung mit Multi-Scale Next-DiT
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
February 10, 2025
Autoren: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI
Zusammenfassung
Jüngste Fortschritte haben die Diffusion Transformers (DiTs) als dominantes Framework in der generativen Modellierung etabliert. Aufbauend auf diesem Erfolg erzielt Lumina-Next eine außergewöhnliche Leistung bei der Erzeugung fotorealistischer Bilder mit Next-DiT. Das Potenzial für die Videogenerierung bleibt jedoch weitgehend ungenutzt, da erhebliche Herausforderungen bei der Modellierung der räumlich-zeitlichen Komplexität, die in Videodaten inhärent ist, bestehen. Um dies zu bewältigen, stellen wir Lumina-Video vor, ein Framework, das die Stärken von Next-DiT nutzt und maßgeschneiderte Lösungen für die Videosynthese einführt. Lumina-Video integriert eine Multi-Scale Next-DiT-Architektur, die gemeinsam mehrere Patchifizierungen lernt, um sowohl Effizienz als auch Flexibilität zu verbessern. Durch die Einbeziehung des Bewegungsscores als explizite Bedingung ermöglicht Lumina-Video auch eine direkte Steuerung des dynamischen Grades der generierten Videos. In Kombination mit einem progressiven Trainingsschema mit zunehmend höherer Auflösung und FPS sowie einem Multi-Source-Trainingsschema mit gemischten natürlichen und synthetischen Daten erzielt Lumina-Video bemerkenswerte ästhetische Qualität und Bewegungsglattheit bei hoher Trainingseffizienz und Inferenzgeschwindigkeit. Darüber hinaus schlagen wir Lumina-V2A vor, ein Video-zu-Audio-Modell auf Basis von Next-DiT, um synchronisierte Geräusche für generierte Videos zu erzeugen. Der Code ist unter https://www.github.com/Alpha-VLLM/Lumina-Video verfügbar.
English
Recent advancements have established Diffusion Transformers (DiTs) as a
dominant framework in generative modeling. Building on this success,
Lumina-Next achieves exceptional performance in the generation of
photorealistic images with Next-DiT. However, its potential for video
generation remains largely untapped, with significant challenges in modeling
the spatiotemporal complexity inherent to video data. To address this, we
introduce Lumina-Video, a framework that leverages the strengths of Next-DiT
while introducing tailored solutions for video synthesis. Lumina-Video
incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple
patchifications to enhance both efficiency and flexibility. By incorporating
the motion score as an explicit condition, Lumina-Video also enables direct
control of generated videos' dynamic degree. Combined with a progressive
training scheme with increasingly higher resolution and FPS, and a multi-source
training scheme with mixed natural and synthetic data, Lumina-Video achieves
remarkable aesthetic quality and motion smoothness at high training and
inference efficiency. We additionally propose Lumina-V2A, a video-to-audio
model based on Next-DiT, to create synchronized sounds for generated videos.
Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.Summary
AI-Generated Summary