Lumina-Video: Efficiënte en Flexibele Video Generatie met Multi-scale Next-DiT
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
February 10, 2025
Auteurs: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI
Samenvatting
Recente ontwikkelingen hebben Diffusion Transformers (DiTs) gevestigd als een dominante structuur in generatieve modellering. Voortbouwend op dit succes, bereikt Lumina-Next uitzonderlijke prestaties in de generatie van fotorealistische beelden met Next-DiT. Echter, het potentieel voor videogeneratie blijft grotendeels onbenut, met aanzienlijke uitdagingen in het modelleren van de ruimtelijk-temporele complexiteit inherent aan videogegevens. Om dit aan te pakken, introduceren we Lumina-Video, een structuur die de sterke punten van Next-DiT benut en tegelijkertijd op maat gemaakte oplossingen introduceert voor videoproductie. Lumina-Video omvat een Multi-scale Next-DiT architectuur, die gezamenlijk meerdere patchificaties leert om zowel efficiëntie als flexibiliteit te verbeteren. Door de bewegingsscore expliciet als voorwaarde op te nemen, maakt Lumina-Video ook directe controle mogelijk over de dynamische mate van gegenereerde video's. Gecombineerd met een progressief trainingschema met steeds hogere resolutie en FPS, en een multi-bron trainingschema met gemengde natuurlijke en synthetische gegevens, bereikt Lumina-Video opmerkelijke esthetische kwaliteit en bewegingsvloeiendheid bij hoge trainings- en inferentie-efficiëntie. Daarnaast stellen we Lumina-V2A voor, een video-naar-audio model gebaseerd op Next-DiT, om gesynchroniseerde geluiden te creëren voor gegenereerde video's. De codes zijn beschikbaar op https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a
dominant framework in generative modeling. Building on this success,
Lumina-Next achieves exceptional performance in the generation of
photorealistic images with Next-DiT. However, its potential for video
generation remains largely untapped, with significant challenges in modeling
the spatiotemporal complexity inherent to video data. To address this, we
introduce Lumina-Video, a framework that leverages the strengths of Next-DiT
while introducing tailored solutions for video synthesis. Lumina-Video
incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple
patchifications to enhance both efficiency and flexibility. By incorporating
the motion score as an explicit condition, Lumina-Video also enables direct
control of generated videos' dynamic degree. Combined with a progressive
training scheme with increasingly higher resolution and FPS, and a multi-source
training scheme with mixed natural and synthetic data, Lumina-Video achieves
remarkable aesthetic quality and motion smoothness at high training and
inference efficiency. We additionally propose Lumina-V2A, a video-to-audio
model based on Next-DiT, to create synchronized sounds for generated videos.
Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.Summary
AI-Generated Summary