ChatPaper.aiChatPaper

UnityVideo: Унифицированное многомодальное многозадачное обучение для улучшения генерации видео с учетом контекста мира

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

December 8, 2025
Авторы: Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI

Аннотация

Современные модели генерации видео демонстрируют впечатляющие возможности синтеза, но остаются ограниченными условиями одного типа данных, что сужает их целостное понимание мира. Это обусловлено недостаточным межмодальным взаимодействием и ограниченным разнообразием модальностей для комплексного представления знаний о мире. Для преодоления этих ограничений мы представляем UnityVideo — унифицированную архитектуру для генерации видео с учетом контекста реального мира, которая совместно обучается на множестве модальностей (маски сегментации, скелеты человека, DensePose, оптические потоки и карты глубины) и тренировочных парадигм. Наш подход включает два ключевых компонента: (1) динамическое добавление шума для унификации разнородных тренировочных парадигм и (2) коммутатор модальностей с контекстным обучающим модулем, обеспечивающий унифицированную обработку через модульные параметры и контекстное обучение. Мы представляем крупномасштабный унифицированный датасет с 1,3 млн примеров. Благодаря совместной оптимизации UnityVideo ускоряет сходимость и значительно улучшает zero-shot обобщение на неизвестные данные. Мы демонстрируем, что UnityVideo достигает превосходного качества видео, согласованности и лучшего соответствия физическим ограничениям реального мира. Код и данные доступны по адресу: https://github.com/dvlab-research/UnityVideo
English
Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization, UnityVideo accelerates convergence and significantly enhances zero-shot generalization to unseen data. We demonstrate that UnityVideo achieves superior video quality, consistency, and improved alignment with physical world constraints. Code and data can be found at: https://github.com/dvlab-research/UnityVideo
PDF143December 10, 2025