UniVidX: Ein einheitliches multimodales Framework für vielseitige Videogenerierung mittels Diffusions-Priors
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
May 1, 2026
Autoren: Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao
cs.AI
Zusammenfassung
Jüngste Fortschritte haben gezeigt, dass Video-Diffusionsmodelle (VDMs) für vielfältige multimodale Grafikaufgaben angepasst werden können. Bisherige Methoden trainieren jedoch häufig separate Modelle für jedes Problemsetting, was die Eingabe-Ausgabe-Zuordnung festlegt und die Modellierung von Korrelationen zwischen Modalitäten einschränkt. Wir stellen UniVidX vor, ein einheitliches multimodales Framework, das VDM-Priors für vielseitige Videogenerierung nutzt. UniVidX formuliert pixelgenaue Aufgaben als bedingte Generierung in einem gemeinsamen multimodalen Raum, passt sich modalitätsspezifischen Verteilungen an, während die nativen Priors des Backbones erhalten bleiben, und fördert cross-modale Konsistenz während der Synthese. Es basiert auf drei Schlüsseldesigns: *Stochastic Condition Masking (SCM)* unterteilt Modalitäten während des Trainings zufällig in saubere Bedingungen und verrauschte Ziele, was omnidirektionale bedingte Generierung anstelle fester Zuordnungen ermöglicht. *Decoupled Gated LoRA (DGL)* führt modalitätsspezifische LoRAs ein, die aktiviert werden, wenn eine Modalität als Generierungsziel dient, und bewahrt so die starken Priors des VDMs. *Cross-Modal Self-Attention (CMSA)* teilt Keys und Values über Modalitäten hinweg, behält aber modalitätsspezifische Queries bei, was den Informationsaustausch und die intermodale Ausrichtung erleichtert. Wir instanziieren UniVidX in zwei Domänen: UniVid-Intrinsic für RGB-Videos und intrinsische Karten (Albedo, Bestrahlungsstärke, Normalen) sowie UniVid-Alpha für gemischte RGB-Videos und ihre RGBA-Komponentenlayer. Experimente zeigen, dass beide Modelle eine mit state-of-the-art Methoden vergleichbare Leistung über verschiedene Aufgaben erreichen und robust auf reale Szenarien verallgemeinern, selbst wenn sie mit weniger als 1.000 Videos trainiert wurden. Projektseite: https://houyuanchen111.github.io/UniVidX.github.io/
English
Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/