Lumina-Video: マルチスケールの次世代DiTを用いた効率的かつ柔軟なビデオ生成
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
February 10, 2025
著者: Dongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao
cs.AI
要旨
最近の進展により、拡散トランスフォーマー(DiTs)が生成モデリングにおいて主要なフレームワークとして確立されました。この成功を踏まえ、Lumina-NextはNext-DiTにより写実的な画像の生成において卓越した性能を達成しています。ただし、そのビデオ生成における潜在能力はほとんど開発されておらず、ビデオデータ固有の時空間的複雑さをモデリングする際には重要な課題があります。この課題に対処するため、我々はNext-DiTの強みを活用しつつ、ビデオ合成のための適切な解決策を導入したフレームワークであるLumina-Videoを提案します。Lumina-Videoは、効率性と柔軟性の両方を向上させるために複数のパッチ化を共同で学習するマルチスケールNext-DiTアーキテクチャを取り入れています。また、Lumina-Videoは生成されたビデオの動的度を直接制御することを可能にする明示的な条件としてモーションスコアを組み込んでいます。さらに、より高い解像度とFPSで段階的にトレーニングするトレーニングスキームと、天然と合成データを混在させたマルチソーストレーニングスキームを組み合わせることで、Lumina-Videoは高いトレーニングおよび推論効率で顕著な美的品質と動きの滑らかさを実現しています。さらに、生成されたビデオに同期した音声を作成するためのNext-DiTに基づくビデオ対オーディオモデルであるLumina-V2Aを提案しています。コードはhttps://www.github.com/Alpha-VLLM/Lumina-Videoで公開されています。
English
Recent advancements have established Diffusion Transformers (DiTs) as a
dominant framework in generative modeling. Building on this success,
Lumina-Next achieves exceptional performance in the generation of
photorealistic images with Next-DiT. However, its potential for video
generation remains largely untapped, with significant challenges in modeling
the spatiotemporal complexity inherent to video data. To address this, we
introduce Lumina-Video, a framework that leverages the strengths of Next-DiT
while introducing tailored solutions for video synthesis. Lumina-Video
incorporates a Multi-scale Next-DiT architecture, which jointly learns multiple
patchifications to enhance both efficiency and flexibility. By incorporating
the motion score as an explicit condition, Lumina-Video also enables direct
control of generated videos' dynamic degree. Combined with a progressive
training scheme with increasingly higher resolution and FPS, and a multi-source
training scheme with mixed natural and synthetic data, Lumina-Video achieves
remarkable aesthetic quality and motion smoothness at high training and
inference efficiency. We additionally propose Lumina-V2A, a video-to-audio
model based on Next-DiT, to create synchronized sounds for generated videos.
Codes are released at https://www.github.com/Alpha-VLLM/Lumina-Video.Summary
AI-Generated Summary