UniVidX:拡散事前分布を活用した汎用的なビデオ生成のための統合マルチモーダルフレームワーク
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
May 1, 2026
著者: Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao
cs.AI
要旨
近年の研究により、ビデオ拡散モデル(VDM)が多様なマルチモーダルグラフィックスタスクに転用可能であることが示されてきました。しかし、既存の手法では各問題設定ごとに個別のモデルを学習するため、入出力マッピングが固定され、モダリティ間の相関関係のモデリングが制限されています。本論文では、VDMの事前分布を活用した汎用的なビデオ生成のための統一マルチモーダルフレームワークUniVidXを提案します。UniVidXは、ピクセル位置が対応するタスクを共有マルチモーダル空間における条件付き生成として定式化し、バックボーンモデルが本来持つ事前分布を保持しつつモダリティ固有の分布に適応し、合成時にクロスモーダルな一貫性を促進します。このフレームワークは3つの主要な設計に基づいています。確率的条件マスキング(SCM)は学習時にモダリティをクリーンな条件とノイズ付きターゲットにランダムに分割し、固定されたマッピングではなく全方向的な条件付き生成を可能にします。分離型ゲート付きLoRA(DGL)は、モダリティが生成ターゲットとして機能する際に活性化されるモダリティ毎のLoRAを導入し、VDMの強力な事前分布を保持します。クロスモーダル自己注意機構(CMSA)は、モダリティ固有のクエリを保持しつつモダリティ間で鍵と値を共有し、情報交換とモダリティ間の整合性を促進します。UniVidXを2つの領域で具体化しました:RGBビデオとアルベド、放射照度、法線マップを含む固有マップを扱うUniVid-Intrinsic、および合成RGBビデオとその構成要素であるRGBAレイヤーを扱うUniVid-Alphaです。実験により、両モデルが異なるタスクにおいて最新手法と競合する性能を達成し、1,000本未満のビデオで学習した場合でも、実世界のシナリオに頑健に汎化することを示しました。プロジェクトページ: https://houyuanchen111.github.io/UniVidX.github.io/
English
Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/