UnityVideo:世界認識を強化する統合マルチモーダル・マルチタスク学習によるビデオ生成
UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
December 8, 2025
著者: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI
要旨
近年の映像生成モデルは印象的な合成能力を示す一方、単一モダリティ条件付けに制限され、世界全体の理解が不十分である。これは、クロスモーダル相互作用の不足と、包括的な世界知識表現のためのモダリティ多様性の限界に起因する。これらの課題を解決するため、我々は複数モダリティ(セグメンテーションマスク、人体骨格、DensePose、オプティカルフロー、深度マップ)と訓練パラダイムを横断的に学習する世界認識型映像生成の統一フレームワーク「UnityVideo」を提案する。本手法は二つの核心コンポーネントを特徴とする:(1)異種訓練パラダイムを統合する動的ノイズ付加、(2)モジュール化パラメータと文脈学習による統一処理を実現するモダリティ切替器と文脈内学習器。130万サンプルからなる大規模統一データセットを構築した。共同最適化により、UnityVideoは収束を加速し、未見データへのゼロショット一般化性能を大幅に向上させる。本手法が、物理世界の制約に合致した優れた映像品質、一貫性を達成することを実証する。コードとデータは以下で公開されている:https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo