ChatPaper.aiChatPaper

Lumina-Video: マルチスケールの次世代DiTを用いた効率的かつ柔軟なビデオ生成

Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

February 10, 2025
著者: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI

要旨

最近の進展により、拡散トランスフォーマー(DiTs)が生成モデリングにおいて主要なフレームワークとして確立されました。この成功を踏まえ、Lumina-NextはNext-DiTにより写実的な画像の生成において卓越した性能を達成しています。ただし、そのビデオ生成における潜在能力はほとんど開発されておらず、ビデオデータ固有の時空間的複雑さをモデリングする際には重要な課題があります。この課題に対処するため、我々はNext-DiTの強みを活用しつつ、ビデオ合成のための適切な解決策を導入したフレームワークであるLumina-Videoを提案します。Lumina-Videoは、効率性と柔軟性の両方を向上させるために複数のパッチ化を共同で学習するマルチスケールNext-DiTアーキテクチャを取り入れています。また、Lumina-Videoは生成されたビデオの動的度を直接制御することを可能にする明示的な条件としてモーションスコアを組み込んでいます。さらに、より高い解像度とFPSで段階的にトレーニングするトレーニングスキームと、天然と合成データを混在させたマルチソーストレーニングスキームを組み合わせることで、Lumina-Videoは高いトレーニングおよび推論効率で顕著な美的品質と動きの滑らかさを実現しています。さらに、生成されたビデオに同期した音声を作成するためのNext-DiTに基づくビデオ対オーディオモデルであるLumina-V2Aを提案しています。コードはhttps://www.github.com/Alpha-VLLM/Lumina-Videoで公開されています。
English
Recent advancements have established Diffusion Transformers (DiTs) as a dominant framework in generative modeling. Building on this success, Lumina-Next achieves exceptional performance in the generation of photorealistic images with Next-DiT. However, its potential for video generation remains largely untapped, with significant challenges in modeling the spatiotemporal complexity inherent to video data. To address this, we introduce Lumina-Video, a framework that leverages the strengths of Next-DiT while introducing tailored solutions for video synthesis. Lumina-Video incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple patchifications to enhance both efficiency and flexibility. By incorporating the motion score as an explicit condition, Lumina-Video also enables direct control of generated videos' dynamic degree. Combined with a progressive training scheme with increasingly higher resolution and FPS, and a multi-source training scheme with mixed natural and synthetic data, Lumina-Video achieves remarkable aesthetic quality and motion smoothness at high training and inference efficiency. We additionally propose Lumina-V2A, a video-to-audio model based on Next-DiT, to create synchronized sounds for generated videos. Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.

Summary

AI-Generated Summary

PDF142February 11, 2025