ChatPaper.aiChatPaper

UnityVideo: Geünificeerd Multi-Modaal Multi-Task Leren voor Verbeterde Wereldbewuste Videogeneratie

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

December 8, 2025
Auteurs: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI

Samenvatting

Recente videogeneratiemodellen vertonen indrukwekkende synthesecapaciteiten, maar worden beperkt door conditionering met één modaliteit, wat hun holistische wereldbegrip inperkt. Dit komt door onvoldoende cross-modale interactie en beperkte modale diversiteit voor uitgebreide wereldkennisrepresentatie. Om deze beperkingen aan te pakken, introduceren we UnityVideo, een uniform framework voor wereldbewuste videogeneratie dat gezamenlijk leert over meerdere modaliteiten (segmentatiemaskers, menselijke skeletten, DensePose, optische stroming en dieptekaarten) en trainingsparadigma's. Onze aanpak omvat twee kerncomponenten: (1) dynamische ruisintroductie om heterogene trainingsparadigma's te verenigen, en (2) een modaliteitsschakelaar met een in-context-leerder die uniforme verwerking mogelijk maakt via modulaire parameters en contextueel leren. Wij dragen een grootschalige uniforme dataset bij met 1,3 miljoen samples. Door gezamenlijke optimalisatie versnelt UnityVideo de convergentie en verbetert significant de zero-shot-generalizatie naar ongeziene data. Wij tonen aan dat UnityVideo superieure videokwaliteit, consistentie en verbeterde afstemming met fysieke wereldbeperkingen bereikt. Code en data zijn beschikbaar op: https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
PDF143December 10, 2025