UniVidX: Een Verenigd Multimodaal Raamwerk voor Veelzijdige Videogeneratie via Diffusion Priors
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
May 1, 2026
Auteurs: Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao
cs.AI
Samenvatting
Recente vooruitgang heeft aangetoond dat videodiffusiemodellen (VDM's) kunnen worden ingezet voor diverse multimodale grafische taken. Bestaande methoden trainen echter vaak afzonderlijke modellen voor elke probleeminstelling, wat de input-output-koppeling vastlegt en de modellering van correlaties tussen modaliteiten beperkt. Wij presenteren UniVidX, een verenigd multimodaal framework dat gebruikmaakt van VDM-priors voor veelzijdige videogeneratie. UniVidX formuleert pixelgealigneeerde taken als conditionele generatie in een gedeelde multimodale ruimte, past zich aan aan modaliteit-specifieke distributies terwijl de natuurlijke priors van de backbone behouden blijven, en bevordert cross-modale consistentie tijdens de synthese. Het is gebouwd op drie kernontwerpen. Stochastische Condition Masking (SCM) verdeelt modaliteiten willekeurig in schone condities en ruisdoelen tijdens de training, wat omnidirectionele conditionele generatie mogelijk maakt in plaats van vaste koppelingen. Decoupled Gated LoRA (DGL) introduceert per-modaliteit LoRA's die worden geactiveerd wanneer een modaliteit als generatiedoel dient, waardoor de sterke priors van het VDM behouden blijven. Cross-Modal Self-Attention (CMSA) deelt sleutels en waarden tussen modaliteiten terwijl modaliteit-specifieke queries behouden blijven, wat informatie-uitwisseling en inter-modale alignering vergemakkelijkt. Wij concretiseren UniVidX in twee domeinen: UniVid-Intrinsic, voor RGB-video's en intrinsieke kaarten zoals albedo, irradiantie en normal; en UniVid-Alpha, voor geblende RGB-video's en hun samenstellende RGBA-lagen. Experimenten tonen aan dat beide modellen prestaties leveren die competitief zijn met state-of-the-art methoden voor verschillende taken en robuust generaliseren naar realistische scenario's, zelfs wanneer ze getraind zijn op minder dan 1.000 video's. Projectpagina: https://houyuanchen111.github.io/UniVidX.github.io/
English
Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/