ChatPaper.aiChatPaper

UnityVideo: Apprendimento Unificato Multi-Modale e Multi-Task per Potenziare la Generazione di Video Consapevoli del Contesto

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

December 8, 2025
Autori: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI

Abstract

I recenti modelli di generazione video dimostrano capacità di sintesi impressionanti, ma rimangono limitati da un condizionamento mono-modale, il quale vincola la loro comprensione olistica del mondo. Ciò deriva da un'interazione cross-modale insufficiente e da una diversità modale limitata per una rappresentazione completa della conoscenza del mondo. Per affrontare queste limitazioni, introduciamo UnityVideo, un framework unificato per la generazione di video consapevole del mondo che apprende congiuntamente attraverso molteplici modalità (maschere di segmentazione, skeleton umani, DensePose, flusso ottico e mappe di profondità) e paradigmi di addestramento. Il nostro approccio presenta due componenti fondamentali: (1) un dynamic noising per unificare paradigmi di addestramento eterogenei, e (2) un modality switcher con un in-context learner che abilita un'elaborazione unificata tramite parametri modulari e apprendimento contestuale. Contribuiamo con un dataset unificato su larga scala contenente 1.3 milioni di campioni. Attraverso un'ottimizzazione congiunta, UnityVideo accelera la convergenza e migliora significativamente la generalizzazione zero-shot su dati non visti. Dimostriamo che UnityVideo raggiunge una qualità video superiore, una maggiore coerenza e un miglior allineamento con i vincoli del mondo fisico. Codice e dati sono disponibili all'indirizzo: https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
PDF143December 10, 2025