ChatPaper.aiChatPaper

UnityVideo: Vereinheitlichtes multimodales Multitask-Lernen zur Verbesserung der weltbewussten Videogenerierung

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

December 8, 2025
papers.authors: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI

papers.abstract

Aktuelle Videogenerierungsmodelle zeigen beeindruckende Synthesefähigkeiten, sind jedoch durch Einzelmodalitäts-Konditionierung eingeschränkt, was ihr ganzheitliches Weltverständnis begrenzt. Dies resultiert aus unzureichender cross-modaler Interaktion und begrenzter Modalitätsvielfalt für eine umfassende Repräsentation von Weltwissen. Um diese Einschränkungen zu adressieren, führen wir UnityVideo ein, einen einheitlichen Rahmen für weltbewusste Videogenerierung, der gemeinsam über mehrere Modalitäten (Segmentierungsmasken, menschliche Skelette, DensePose, optischer Fluss und Tiefenkarten) und Trainingsparadigmen lernt. Unser Ansatz umfasst zwei Kernkomponenten: (1) dynamisches Rauschen zur Vereinheitlichung heterogener Trainingsparadigmen und (2) einen Modalitäts-Switcher mit einem In-Context-Lerner, der eine vereinheitlichte Verarbeitung durch modulare Parameter und kontextuelles Lernen ermöglicht. Wir stellen einen großen, vereinheitlichten Datensatz mit 1,3 Mio. Samples bereit. Durch gemeinsame Optimierung beschleunigt UnityVideo die Konvergenz und verbessert signifikant die Zero-Shot-Generalisierung auf ungesehene Daten. Wir zeigen, dass UnityVideo überlegene Videoqualität, Konsistenz und verbesserte Übereinstimmung mit physikalischen Weltbeschränkungen erreicht. Code und Daten sind verfügbar unter: https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
PDF143December 10, 2025