FullDiT:フルアテンションを備えたマルチタスク動画生成基盤モデル
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
著者: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
要旨
現在のビデオ生成基盤モデルは主にテキストからビデオへのタスクに焦点を当てており、細粒度のビデオコンテンツ作成に対する制御が限られています。アダプタベースのアプローチ(例:ControlNet)は最小限のファインチューニングで追加の制御を可能にしますが、複数の条件を統合する際に課題に直面しています。これには、独立して訓練されたアダプタ間のブランチ競合、パラメータの冗長性による計算コストの増加、そして完全なファインチューニングに比べて最適でない性能が含まれます。これらの課題に対処するため、我々はFullDiTを紹介します。これは、統一されたフルアテンションメカニズムを介して複数の条件をシームレスに統合するビデオ生成のための統一基盤モデルです。マルチタスク条件を統一されたシーケンス表現に融合し、フルセルフアテンションの長文脈学習能力を活用して条件のダイナミクスを捉えることで、FullDiTはパラメータのオーバーヘッドを削減し、条件の競合を回避し、スケーラビリティと創発能力を示します。さらに、マルチタスクビデオ生成評価のためのFullBenchを導入します。実験により、FullDiTが最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性が強調されています。
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary