UniVidX: 확산 프리어를 통한 다목적 비디오 생성을 위한 통합 멀티모달 프레임워크
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
May 1, 2026
저자: Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao
cs.AI
초록
최근 연구에 따르면 비디오 확산 모델(VDM)을 다양한 멀티모달 그래픽 작업에 재활용할 수 있음이 입증되었습니다. 그러나 기존 방법은 각 문제 설정에 대해 별도의 모델을 학습하는 경우가 많아, 입력-출력 매핑이 고정되고 모달리티 간 상관관계 모델링이 제한됩니다. 본 논문에서는 VDM 사전 지식을 활용한 다목적 비디오 생성 통합 프레임워크인 UniVidX를 제안합니다. UniVidX는 픽셀 정렬 작업을 공유 멀티모달 공간에서의 조건부 생성으로 공식화하며, 백본의 본래 사전 지식을 보존하면서 모달리티별 분포에 적응하고 합성 과정에서 크로스모달 일관성을 촉진합니다. 이는 세 가지 핵심 설계를 기반으로 합니다. 확률적 조건 마스킹(SCM)은 학습 중 모달리티를 무작위로 정제 조건과 잡음 대상으로 분할하여 고정된 매핑이 아닌 전방향 조건부 생성을 가능하게 합니다. 분리 게이트 LoRA(DGL)는 모달리티가 생성 대상으로 사용될 때 활성화되는 모달리티별 LoRA를 도입하여 VDM의 강력한 사전 지식을 보존합니다. 크로스모달 자기 주의(CMSA)는 모달리티별 쿼리를 유지하면서 모달리티 간 키와 값을 공유하여 정보 교환 및 모달리티 간 정렬을 용이하게 합니다. 우리는 UniVidX를 두 가지 도메인에서 구현합니다: 알베도, 조도, 노멀을 포함한 RGB 비디오와 내재적 맵을 위한 UniVid-Intrinsic, 그리고 블렌딩된 RGB 비디오와 이를 구성하는 RGBA 레이어를 위한 UniVid-Alpha입니다. 실험 결과, 두 모델 모두 다양한 작업에서 최신 방법과 경쟁력 있는 성능을 달성하며 1,000개 미만의 비디오로 학습된 경우에도 실제 시나리오에서 강력한 일반화 성능을 보여줍니다. 프로젝트 페이지: https://houyuanchen111.github.io/UniVidX.github.io/
English
Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/