ChatPaper.aiChatPaper

Lumina-Video: Эффективная и гибкая генерация видео с многоуровневым Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
Авторы: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

Аннотация

Недавние достижения утвердили Диффузионные Трансформеры (DiTs) как доминирующую концепцию в генеративном моделировании. На основе этого успеха Lumina-Next достигает исключительной производительности в создании фотореалистичных изображений с помощью Next-DiT. Однако его потенциал для генерации видео остается в значительной степени неиспользованным из-за значительных проблем в моделировании пространственно-временной сложности, присущей видеоданным. Для решения этой проблемы мы представляем Lumina-Video, концепцию, которая использует преимущества Next-DiT, внедряя специализированные решения для синтеза видео. Lumina-Video включает в себя архитектуру Мультимасштабного Next-DiT, которая совместно обучает несколько патчификаций для улучшения как эффективности, так и гибкости. Дополнительно, интегрируя оценку движения в качестве явного условия, Lumina-Video также обеспечивает прямое управление динамической степенью созданных видеороликов. В сочетании с пошаговой схемой обучения с постепенным увеличением разрешения и кадров в секунду, а также с многоканальной схемой обучения с использованием смешанных естественных и синтетических данных, Lumina-Video достигает выдающегося качества изображения и плавности движения при высокой эффективности как во время обучения, так и вывода. Кроме того, мы предлагаем Lumina-V2A, модель видео-к-аудио на основе Next-DiT, для создания синхронизированных звуков для созданных видеороликов. Коды доступны по ссылке https://www.github.com/Alpha-VLLM/Lumina-Video.
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF142February 11, 2025