ChatPaper.aiChatPaper

UnityVideo: 세계 인식 비디오 생성을 강화하기 위한 통합 다중 모달 다중 작업 학습

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

December 8, 2025
저자: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI

초록

최근 비디오 생성 모델은 인상적인 합성 능력을 보여주지만 단일 양식 조건화에 제한되어 전체적인 세계 이해에 한계를 보입니다. 이는 포괄적인 세계 지식 표현을 위한 교차 양식 상호작용 부족과 양식 다양성의 한계에서 비롯됩니다. 이러한 한계를 해결하기 위해 우리는 다중 양식(분할 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵)과 훈련 패러다임을 통합 학습하는 세계 인식 비디오 생성 통합 프레임워크인 UnityVideo를 소개합니다. 우리의 접근 방식은 두 가지 핵심 구성 요소를 특징으로 합니다: (1) 이질적인 훈련 패러다임을 통합하기 위한 동적 노이징, (2) 모듈식 매개변수와 문맥 학습을 통한 통합 처리가 가능한 인-컨텍스트 학습기를 갖춘 양식 전환기. 우리는 130만 개의 샘플로 구성된 대규모 통합 데이터셋을 구축했습니다. 공동 최적화를 통해 UnityVideo는 수렴 속도를 가속화하고 보이지 않는 데이터에 대한 제로샷 일반화 성능을 크게 향상시킵니다. UnityVideo가 우수한 비디오 품질, 일관성 및 물리적 세계 제약 조건과의 향상된 정렬을 달성함을 입증합니다. 코드와 데이터는 https://github.com/dvlab-research/UnityVideo에서 확인할 수 있습니다.
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
PDF143December 10, 2025