UniVidX : Un cadre multimodal unifié pour la génération vidéo polyvalente via des préalables de diffusion

Résumé

Les progrès récents ont montré que les modèles de diffusion vidéo (VDM) peuvent être réutilisés pour diverses tâches graphiques multimodales. Cependant, les méthodes existantes entraînent souvent des modèles séparés pour chaque configuration de problème, ce qui fixe la relation entrée-sortie et limite la modélisation des corrélations entre modalités. Nous présentons UniVidX, un cadre multimodal unifié qui exploite les a priori des VDM pour une génération vidéo polyvalente. UniVidX formule les tâches alignées sur les pixels comme une génération conditionnelle dans un espace multimodal partagé, s'adapte aux distributions spécifiques à chaque modalité tout en préservant les a priori natifs du modèle de base, et favorise la cohérence intermodale lors de la synthèse. Il repose sur trois conceptions clés. Le Masquage Aléatoire des Conditions (SCM) partitionne aléatoirement les modalités en conditions propres et cibles bruitées pendant l'entraînement, permettant une génération conditionnelle omnidirectionnelle au lieu de mappings fixes. La LoRA à Porte Découplée (DGL) introduit des LoRA par modalité qui sont activées lorsqu'une modalité sert de cible de génération, préservant les forts a priori du VDM. L'Auto-Attention Transmodale (CMSA) partage les clés et les valeurs entre les modalités tout en conservant des requêtes spécifiques à chaque modalité, facilitant l'échange d'informations et l'alignement intermodal. Nous instancions UniVidX dans deux domaines : UniVid-Intrinsic, pour les vidéos RVB et les cartes intrinsèques incluant l'albédo, l'irradiance et les normales ; et UniVid-Alpha, pour les vidéos RVB mélangées et leurs couches constitutives RVBA. Les expériences montrent que les deux modèles atteignent des performances compétitives avec les méthodes de l'état de l'art sur diverses tâches et généralisent robustement à des scénarios en conditions réelles, même lorsqu'ils sont entraînés sur moins de 1 000 vidéos. Page du projet : https://houyuanchen111.github.io/UniVidX.github.io/

English

Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/

UniVidX : Un cadre multimodal unifié pour la génération vidéo polyvalente via des préalables de diffusion

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Résumé

Support