ChatPaper.aiChatPaper

UnityVideo: Aprendizaje Unificado Multimodal y Multitarea para Mejorar la Generación de Videos Conscientes del Mundo

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

December 8, 2025
Autores: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI

Resumen

Los modelos recientes de generación de vídeo demuestran capacidades de síntesis impresionantes, pero siguen limitados por el condicionamiento unimodal, lo que restringe su comprensión holística del mundo. Esto se debe a una interacción multimodal insuficiente y a una diversidad modal limitada para representar el conocimiento mundial integral. Para abordar estas limitaciones, presentamos UnityVideo, un marco unificado para la generación de vídeo consciente del mundo que aprende conjuntamente a través de múltiples modalidades (máscaras de segmentación, esqueletos humanos, DensePose, flujo óptico y mapas de profundidad) y paradigmas de entrenamiento. Nuestro enfoque incluye dos componentes principales: (1) ruido dinámico para unificar paradigmas de entrenamiento heterogéneos, y (2) un conmutador de modalidades con un aprendiz contextual que permite el procesamiento unificado mediante parámetros modulares y aprendizaje contextual. Contribuimos con un conjunto de datos unificado a gran escala con 1.3 millones de muestras. Mediante la optimización conjunta, UnityVideo acelera la convergencia y mejora significativamente la generalización zero-shot para datos no vistos. Demostramos que UnityVideo logra una calidad de vídeo superior, consistencia y una mejor alineación con las restricciones del mundo físico. El código y los datos pueden encontrarse en: https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
PDF143December 10, 2025