UniVidX: Un Marco Unificado Multimodal para la Generación Versátil de Videos mediante Priores de Difusión

Resumen

Los avances recientes han demostrado que los modelos de difusión de video (VDM) pueden readaptarse para diversas tareas de gráficos multimodales. Sin embargo, los métodos existentes suelen entrenar modelos separados para cada configuración de problema, lo que fija la asignación entrada-salida y limita el modelado de correlaciones entre modalidades. Presentamos UniVidX, un marco multimodal unificado que aprovecha los conocimientos previos de VDM para la generación versátil de video. UniVidX formula las tareas alineadas a píxeles como generación condicional en un espacio multimodal compartido, se adapta a distribuciones específicas por modalidad preservando los conocimientos previos nativos del modelo base, y promueve la coherencia cross-modal durante la síntesis. Se construye sobre tres diseños clave. El Enmascaramiento Condicional Estocástico (SCM) divide aleatoriamente las modalidades en condiciones limpias y objetivos ruidosos durante el entrenamiento, permitiendo una generación condicional omnidireccional en lugar de asignaciones fijas. LoRA Disociado con Compuerta (DGL) introduce LoRAs por modalidad que se activan cuando una modalidad sirve como objetivo de generación, preservando los fuertes conocimientos previos del VDM. La Auto-Atención Cross-Modal (CMSA) comparte claves y valores entre modalidades manteniendo consultas específicas por modalidad, facilitando el intercambio de información y la alineación intermodal. Instanciamos UniVidX en dos dominios: UniVid-Intrinsic, para videos RGB y mapas intrínsecos que incluyen albedo, irradiancia y normales; y UniVid-Alpha, para videos RGB mezclados y sus capas constituyentes RGBA. Los experimentos muestran que ambos modelos logran un rendimiento competitivo con los métodos de vanguardia en distintas tareas y se generalizan robustamente a escenarios del mundo real, incluso cuando se entrenan con menos de 1,000 videos. Página del proyecto: https://houyuanchen111.github.io/UniVidX.github.io/

English

Recent progress has shown that video diffusion models (VDMs) can be repurposed for diverse multimodal graphics tasks. However, existing methods often train separate models for each problem setting, which fixes the input-output mapping and limits the modeling of correlations across modalities. We present UniVidX, a unified multimodal framework that leverages VDM priors for versatile video generation. UniVidX formulates pixel-aligned tasks as conditional generation in a shared multimodal space, adapts to modality-specific distributions while preserving the backbone's native priors, and promotes cross-modal consistency during synthesis. It is built on three key designs. Stochastic Condition Masking (SCM) randomly partitions modalities into clean conditions and noisy targets during training, enabling omni-directional conditional generation instead of fixed mappings. Decoupled Gated LoRA (DGL) introduces per-modality LoRAs that are activated when a modality serves as the generation target, preserving the strong priors of the VDM. Cross-Modal Self-Attention (CMSA) shares keys and values across modalities while keeping modality-specific queries, facilitating information exchange and inter-modal alignment. We instantiate UniVidX in two domains: UniVid-Intrinsic, for RGB videos and intrinsic maps including albedo, irradiance, and normal; and UniVid-Alpha, for blended RGB videos and their constituent RGBA layers. Experiments show that both models achieve performance competitive with state-of-the-art methods across distinct tasks and generalize robustly to in-the-wild scenarios, even when trained on fewer than 1,000 videos. Project page: https://houyuanchen111.github.io/UniVidX.github.io/

UniVidX: Un Marco Unificado Multimodal para la Generación Versátil de Videos mediante Priores de Difusión

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Resumen

Support