UniMMVSR: Un Marco Unificado Multi-Modal para la Super-Resolución en Cascada de Vídeo
UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
October 9, 2025
Autores: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI
Resumen
La superresolución de video en cascada ha surgido como una técnica prometedora para desacoplar la carga computacional asociada con la generación de videos de alta resolución utilizando modelos base de gran escala. Sin embargo, los estudios existentes se limitan principalmente a tareas de texto a video y no aprovechan condiciones generativas adicionales más allá del texto, las cuales son cruciales para garantizar la fidelidad en la generación de video multimodal. Abordamos esta limitación presentando UniMMVSR, el primer marco unificado de superresolución de video generativo que incorpora condiciones híbridas, incluyendo texto, imágenes y videos. Realizamos una exploración exhaustiva de estrategias de inyección de condiciones, esquemas de entrenamiento y técnicas de mezcla de datos dentro de un modelo de difusión de video latente. Un desafío clave fue diseñar métodos distintos de construcción de datos y utilización de condiciones para permitir que el modelo utilice con precisión todos los tipos de condiciones, dada su variada correlación con el video objetivo. Nuestros experimentos demuestran que UniMMVSR supera significativamente a los métodos existentes, produciendo videos con detalles superiores y un mayor grado de conformidad con las condiciones multimodales. También validamos la viabilidad de combinar UniMMVSR con un modelo base para lograr la generación guiada multimodal de video en 4K, un logro previamente inalcanzable con las técnicas existentes.
English
Cascaded video super-resolution has emerged as a promising technique for
decoupling the computational burden associated with generating high-resolution
videos using large foundation models. Existing studies, however, are largely
confined to text-to-video tasks and fail to leverage additional generative
conditions beyond text, which are crucial for ensuring fidelity in multi-modal
video generation. We address this limitation by presenting UniMMVSR, the first
unified generative video super-resolution framework to incorporate hybrid-modal
conditions, including text, images, and videos. We conduct a comprehensive
exploration of condition injection strategies, training schemes, and data
mixture techniques within a latent video diffusion model. A key challenge was
designing distinct data construction and condition utilization methods to
enable the model to precisely utilize all condition types, given their varied
correlations with the target video. Our experiments demonstrate that UniMMVSR
significantly outperforms existing methods, producing videos with superior
detail and a higher degree of conformity to multi-modal conditions. We also
validate the feasibility of combining UniMMVSR with a base model to achieve
multi-modal guided generation of 4K video, a feat previously unattainable with
existing techniques.