ChatPaper.aiChatPaper

UniMMVSR: Um Framework Multi-Modal Unificado para Super-Resolução de Vídeo em Cascata

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

October 9, 2025
Autores: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI

Resumo

A super-resolução de vídeo em cascata surgiu como uma técnica promissora para desacoplar o custo computacional associado à geração de vídeos de alta resolução usando grandes modelos de base. No entanto, os estudos existentes estão amplamente restritos a tarefas de texto para vídeo e não aproveitam condições gerativas adicionais além do texto, que são cruciais para garantir fidelidade na geração de vídeos multimodais. Nós abordamos essa limitação apresentando o UniMMVSR, o primeiro framework unificado de super-resolução de vídeo generativo a incorporar condições híbrido-modais, incluindo texto, imagens e vídeos. Realizamos uma exploração abrangente de estratégias de injeção de condições, esquemas de treinamento e técnicas de mistura de dados dentro de um modelo de difusão de vídeo latente. Um desafio fundamental foi projetar métodos distintos de construção de dados e utilização de condições para permitir que o modelo utilizasse com precisão todos os tipos de condições, dada a sua variada correlação com o vídeo alvo. Nossos experimentos demonstram que o UniMMVSR supera significativamente os métodos existentes, produzindo vídeos com detalhes superiores e um maior grau de conformidade com condições multimodais. Também validamos a viabilidade de combinar o UniMMVSR com um modelo base para alcançar a geração guiada multimodal de vídeos em 4K, um feito anteriormente inatingível com as técnicas existentes.
English
Cascaded video super-resolution has emerged as a promising technique for decoupling the computational burden associated with generating high-resolution videos using large foundation models. Existing studies, however, are largely confined to text-to-video tasks and fail to leverage additional generative conditions beyond text, which are crucial for ensuring fidelity in multi-modal video generation. We address this limitation by presenting UniMMVSR, the first unified generative video super-resolution framework to incorporate hybrid-modal conditions, including text, images, and videos. We conduct a comprehensive exploration of condition injection strategies, training schemes, and data mixture techniques within a latent video diffusion model. A key challenge was designing distinct data construction and condition utilization methods to enable the model to precisely utilize all condition types, given their varied correlations with the target video. Our experiments demonstrate that UniMMVSR significantly outperforms existing methods, producing videos with superior detail and a higher degree of conformity to multi-modal conditions. We also validate the feasibility of combining UniMMVSR with a base model to achieve multi-modal guided generation of 4K video, a feat previously unattainable with existing techniques.
PDF203October 10, 2025