UnityVideo: Aprendizado Unificado Multi-Modal e Multi-Tarefa para Aprimorar a Geração de Vídeos com Consciência do Mundo
UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
December 8, 2025
Autores: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI
Resumo
Os recentes modelos de geração de vídeo demonstram capacidades de síntese impressionantes, mas permanecem limitados pelo condicionamento de modalidade única, restringindo sua compreensão holística do mundo. Isto decorre da interação multimodal insuficiente e da diversidade modal limitada para uma representação abrangente do conhecimento mundial. Para superar estas limitações, introduzimos o UnityVideo, uma estrutura unificada para geração de vídeo consciente do mundo que aprende conjuntamente em múltiplas modalidades (máscaras de segmentação, esqueletos humanos, DensePose, fluxo óptico e mapas de profundidade) e paradigmas de treinamento. Nossa abordagem apresenta dois componentes principais: (1) *dynamic noising* para unificar paradigmas de treinamento heterogêneos, e (2) um comutador de modalidade com um aprendiz contextual que permite o processamento unificado por meio de parâmetros modulares e aprendizagem contextual. Contribuímos com um conjunto de dados unificado em larga escala contendo 1,3 milhão de amostras. Através da otimização conjunta, o UnityVideo acelera a convergência e melhora significativamente a generalização *zero-shot* para dados não vistos. Demonstramos que o UnityVideo alcança qualidade e consistência de vídeo superiores, com melhor alinhamento às restrições do mundo físico. O código e os dados podem ser encontrados em: https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo