UnityVideo: Aprendizado Unificado Multi-Modal e Multi-Tarefa para Aprimorar a Geração de Vídeos com Consciência do Mundo

Resumo

Os recentes modelos de geração de vídeo demonstram capacidades de síntese impressionantes, mas permanecem limitados pelo condicionamento de modalidade única, restringindo sua compreensão holística do mundo. Isto decorre da interação multimodal insuficiente e da diversidade modal limitada para uma representação abrangente do conhecimento mundial. Para superar estas limitações, introduzimos o UnityVideo, uma estrutura unificada para geração de vídeo consciente do mundo que aprende conjuntamente em múltiplas modalidades (máscaras de segmentação, esqueletos humanos, DensePose, fluxo óptico e mapas de profundidade) e paradigmas de treinamento. Nossa abordagem apresenta dois componentes principais: (1) *dynamic noising* para unificar paradigmas de treinamento heterogêneos, e (2) um comutador de modalidade com um aprendiz contextual que permite o processamento unificado por meio de parâmetros modulares e aprendizagem contextual. Contribuímos com um conjunto de dados unificado em larga escala contendo 1,3 milhão de amostras. Através da otimização conjunta, o UnityVideo acelera a convergência e melhora significativamente a generalização *zero-shot* para dados não vistos. Demonstramos que o UnityVideo alcança qualidade e consistência de vídeo superiores, com melhor alinhamento às restrições do mundo físico. O código e os dados podem ser encontrados em: https://github.com/dvlab-research/UnityVideo

English

Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo

UnityVideo: Aprendizado Unificado Multi-Modal e Multi-Tarefa para Aprimorar a Geração de Vídeos com Consciência do Mundo

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

Resumo

Support