Lumina-Video: Geração Eficiente e Flexível de Vídeo com Multi-escala Next-DiT

Resumo

Avanços recentes estabeleceram os Transformadores de Difusão (DiTs) como um framework dominante em modelagem generativa. Construindo sobre esse sucesso, o Lumina-Next alcança um desempenho excepcional na geração de imagens fotorrealistas com o Next-DiT. No entanto, seu potencial para geração de vídeos permanece amplamente inexplorado, com desafios significativos na modelagem da complexidade espaço-temporal inerente aos dados de vídeo. Para abordar isso, apresentamos o Lumina-Video, um framework que aproveita os pontos fortes do Next-DiT enquanto introduz soluções personalizadas para síntese de vídeo. O Lumina-Video incorpora uma arquitetura Multi-escala Next-DiT, que aprende conjuntamente múltiplas patchificações para aprimorar tanto a eficiência quanto a flexibilidade. Ao incorporar o escore de movimento como uma condição explícita, o Lumina-Video também possibilita o controle direto do grau dinâmico dos vídeos gerados. Combinado com um esquema de treinamento progressivo com resoluções e FPS cada vez mais altos, e um esquema de treinamento de múltiplas fontes com dados naturais e sintéticos misturados, o Lumina-Video alcança uma notável qualidade estética e suavidade de movimento com alta eficiência de treinamento e inferência. Adicionalmente, propomos o Lumina-V2A, um modelo de vídeo-para-áudio baseado no Next-DiT, para criar sons sincronizados para os vídeos gerados. Os códigos estão disponíveis em https://www.github.com/Alpha-VLLM/Lumina-Video.

English

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Lumina-Video: Geração Eficiente e Flexível de Vídeo com Multi-escala Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Resumo

Support