Lumina-Video: Effiziente und flexible Videogenerierung mit Multi-Scale Next-DiT

papers.abstract

Jüngste Fortschritte haben die Diffusion Transformers (DiTs) als dominantes Framework in der generativen Modellierung etabliert. Aufbauend auf diesem Erfolg erzielt Lumina-Next eine außergewöhnliche Leistung bei der Erzeugung fotorealistischer Bilder mit Next-DiT. Das Potenzial für die Videogenerierung bleibt jedoch weitgehend ungenutzt, da erhebliche Herausforderungen bei der Modellierung der räumlich-zeitlichen Komplexität, die in Videodaten inhärent ist, bestehen. Um dies zu bewältigen, stellen wir Lumina-Video vor, ein Framework, das die Stärken von Next-DiT nutzt und maßgeschneiderte Lösungen für die Videosynthese einführt. Lumina-Video integriert eine Multi-Scale Next-DiT-Architektur, die gemeinsam mehrere Patchifizierungen lernt, um sowohl Effizienz als auch Flexibilität zu verbessern. Durch die Einbeziehung des Bewegungsscores als explizite Bedingung ermöglicht Lumina-Video auch eine direkte Steuerung des dynamischen Grades der generierten Videos. In Kombination mit einem progressiven Trainingsschema mit zunehmend höherer Auflösung und FPS sowie einem Multi-Source-Trainingsschema mit gemischten natürlichen und synthetischen Daten erzielt Lumina-Video bemerkenswerte ästhetische Qualität und Bewegungsglattheit bei hoher Trainingseffizienz und Inferenzgeschwindigkeit. Darüber hinaus schlagen wir Lumina-V2A vor, ein Video-zu-Audio-Modell auf Basis von Next-DiT, um synchronisierte Geräusche für generierte Videos zu erzeugen. Der Code ist unter https://www.github.com/Alpha-VLLM/Lumina-Video verfügbar.

English

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Lumina-Video: Effiziente und flexible Videogenerierung mit Multi-Scale Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

papers.abstract

Support