UniVidX: Унифицированная мультимодальная система для универсального генерации видео с использованием диффузионных априорных моделей

Аннотация

Недавние достижения показали, что видео-диффузионные модели (VDM) могут быть адаптированы для решения разнообразных мультимодальных графических задач. Однако существующие методы часто обучают отдельные модели для каждой постановки задачи, что фиксирует соответствие «вход-выход» и ограничивает моделирование корреляций между модальностями. Мы представляем UniVidX — унифицированную мультимодальную платформу, использующую априорные знания VDM для универсальной генерации видео. UniVidX формулирует пиксельно-выровненные задачи как условную генерацию в общем мультимодальном пространстве, адаптируется к специфичным для модальностей распределениям, сохраняя исходные априорные знания базовой модели, и обеспечивает кросс-модальную согласованность в процессе синтеза. Платформа построена на трёх ключевых принципах. **Стохастическое маскирование условий (SCM)** случайным образом разделяет модальности на «чистые» условия и зашумленные цели во время обучения, обеспечивая всестороннюю условную генерацию вместо фиксированных соответствий. **Разделённая Gated LoRA (DGL)** вводит LoRA-модули для каждой модальности, которые активируются, когда модальность выступает целью генерации, сохраняя при этом мощные априорные знания VDM. **Кросс-модальный Self-Attention (CMSA)** использует общие ключи и значения для всех модальностей при сохранении специфичных для каждой модальности запросов, способствуя обмену информацией и межмодальному выравниванию. Мы реализовали UniVidX в двух областях: **UniVid-Intrinsic** — для RGB-видео и интринсик-карт (альбедо, освещённость, нормали); и **UniVid-Alpha** — для смешанных RGB-видео и их составных RGBA-слоёв. Эксперименты показывают, что обе модели демонстрируют результаты, сопоставимые с современными методами в различных задачах, и обладают robustной обобщающей способностью в реальных сценариях, даже при обучении на менее чем 1000 видео. Страница проекта: https://houyuanchen111.github.io/UniVidX.github.io/

English

Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/

UniVidX: Унифицированная мультимодальная система для универсального генерации видео с использованием диффузионных априорных моделей

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Аннотация

Support