Lumina-Video: Эффективная и гибкая генерация видео с многоуровневым Next-DiT

Аннотация

Недавние достижения утвердили Диффузионные Трансформеры (DiTs) как доминирующую концепцию в генеративном моделировании. На основе этого успеха Lumina-Next достигает исключительной производительности в создании фотореалистичных изображений с помощью Next-DiT. Однако его потенциал для генерации видео остается в значительной степени неиспользованным из-за значительных проблем в моделировании пространственно-временной сложности, присущей видеоданным. Для решения этой проблемы мы представляем Lumina-Video, концепцию, которая использует преимущества Next-DiT, внедряя специализированные решения для синтеза видео. Lumina-Video включает в себя архитектуру Мультимасштабного Next-DiT, которая совместно обучает несколько патчификаций для улучшения как эффективности, так и гибкости. Дополнительно, интегрируя оценку движения в качестве явного условия, Lumina-Video также обеспечивает прямое управление динамической степенью созданных видеороликов. В сочетании с пошаговой схемой обучения с постепенным увеличением разрешения и кадров в секунду, а также с многоканальной схемой обучения с использованием смешанных естественных и синтетических данных, Lumina-Video достигает выдающегося качества изображения и плавности движения при высокой эффективности как во время обучения, так и вывода. Кроме того, мы предлагаем Lumina-V2A, модель видео-к-аудио на основе Next-DiT, для создания синхронизированных звуков для созданных видеороликов. Коды доступны по ссылке https://www.github.com/Alpha-VLLM/Lumina-Video.

English

Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Lumina-Video: Эффективная и гибкая генерация видео с многоуровневым Next-DiT

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Аннотация

Support