Lumina-Video: Efficiënte en Flexibele Video Generatie met Multi-scale Next-DiT

Samenvatting

Recente ontwikkelingen hebben Diffusion Transformers (DiTs) gevestigd als een dominante structuur in generatieve modellering. Voortbouwend op dit succes, bereikt Lumina-Next uitzonderlijke prestaties in de generatie van fotorealistische beelden met Next-DiT. Echter, het potentieel voor videogeneratie blijft grotendeels onbenut, met aanzienlijke uitdagingen in het modelleren van de ruimtelijk-temporele complexiteit inherent aan videogegevens. Om dit aan te pakken, introduceren we Lumina-Video, een structuur die de sterke punten van Next-DiT benut en tegelijkertijd op maat gemaakte oplossingen introduceert voor videoproductie. Lumina-Video omvat een Multi-scale Next-DiT architectuur, die gezamenlijk meerdere patchificaties leert om zowel efficiëntie als flexibiliteit te verbeteren. Door de bewegingsscore expliciet als voorwaarde op te nemen, maakt Lumina-Video ook directe controle mogelijk over de dynamische mate van gegenereerde video's. Gecombineerd met een progressief trainingschema met steeds hogere resolutie en FPS, en een multi-bron trainingschema met gemengde natuurlijke en synthetische gegevens, bereikt Lumina-Video opmerkelijke esthetische kwaliteit en bewegingsvloeiendheid bij hoge trainings- en inferentie-efficiëntie. Daarnaast stellen we Lumina-V2A voor, een video-naar-audio model gebaseerd op Next-DiT, om gesynchroniseerde geluiden te creëren voor gegenereerde video's. De codes zijn beschikbaar op https://www.github.com/Alpha-VLLM/Lumina-Video.

English

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Lumina-Video: Efficiënte en Flexibele Video Generatie met Multi-scale Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Samenvatting

Support