ChatPaper.aiChatPaper

Lumina-Video: Efficiënte en Flexibele Video Generatie met Multi-scale Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
Auteurs: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

Samenvatting

Recente ontwikkelingen hebben Diffusion Transformers (DiTs) gevestigd als een dominante structuur in generatieve modellering. Voortbouwend op dit succes, bereikt Lumina-Next uitzonderlijke prestaties in de generatie van fotorealistische beelden met Next-DiT. Echter, het potentieel voor videogeneratie blijft grotendeels onbenut, met aanzienlijke uitdagingen in het modelleren van de ruimtelijk-temporele complexiteit inherent aan videogegevens. Om dit aan te pakken, introduceren we Lumina-Video, een structuur die de sterke punten van Next-DiT benut en tegelijkertijd op maat gemaakte oplossingen introduceert voor videoproductie. Lumina-Video omvat een Multi-scale Next-DiT architectuur, die gezamenlijk meerdere patchificaties leert om zowel efficiëntie als flexibiliteit te verbeteren. Door de bewegingsscore expliciet als voorwaarde op te nemen, maakt Lumina-Video ook directe controle mogelijk over de dynamische mate van gegenereerde video's. Gecombineerd met een progressief trainingschema met steeds hogere resolutie en FPS, en een multi-bron trainingschema met gemengde natuurlijke en synthetische gegevens, bereikt Lumina-Video opmerkelijke esthetische kwaliteit en bewegingsvloeiendheid bij hoge trainings- en inferentie-efficiëntie. Daarnaast stellen we Lumina-V2A voor, een video-naar-audio model gebaseerd op Next-DiT, om gesynchroniseerde geluiden te creëren voor gegenereerde video's. De codes zijn beschikbaar op https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF142February 11, 2025