UniMMVSR : Un Cadre Multi-Modal Unifié pour la Super-Résolution Vidéo en Cascade
UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
October 9, 2025
papers.authors: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI
papers.abstract
La super-résolution vidéo en cascade s'est imposée comme une technique prometteuse pour découpler la charge computationnelle associée à la génération de vidéos haute résolution à l'aide de grands modèles de base. Cependant, les études existantes se limitent largement aux tâches de texte-à-vidéo et ne parviennent pas à exploiter des conditions génératives supplémentaires au-delà du texte, qui sont pourtant cruciales pour garantir la fidélité dans la génération vidéo multi-modale. Nous abordons cette limitation en présentant UniMMVSR, le premier cadre unifié de super-résolution vidéo générative intégrant des conditions hybrides, incluant le texte, les images et les vidéos. Nous menons une exploration approfondie des stratégies d'injection de conditions, des schémas d'entraînement et des techniques de mélange de données au sein d'un modèle de diffusion vidéo latente. Un défi majeur a été de concevoir des méthodes distinctes de construction des données et d'utilisation des conditions pour permettre au modèle d'exploiter précisément tous les types de conditions, compte tenu de leurs corrélations variées avec la vidéo cible. Nos expériences démontrent qu'UniMMVSR surpasse significativement les méthodes existantes, produisant des vidéos avec des détails supérieurs et un degré de conformité plus élevé aux conditions multi-modales. Nous validons également la faisabilité de combiner UniMMVSR avec un modèle de base pour réaliser une génération guidée multi-modale de vidéos 4K, un exploit jusqu'alors inaccessible avec les techniques existantes.
English
Cascaded video super-resolution has emerged as a promising technique for
decoupling the computational burden associated with generating high-resolution
videos using large foundation models. Existing studies, however, are largely
confined to text-to-video tasks and fail to leverage additional generative
conditions beyond text, which are crucial for ensuring fidelity in multi-modal
video generation. We address this limitation by presenting UniMMVSR, the first
unified generative video super-resolution framework to incorporate hybrid-modal
conditions, including text, images, and videos. We conduct a comprehensive
exploration of condition injection strategies, training schemes, and data
mixture techniques within a latent video diffusion model. A key challenge was
designing distinct data construction and condition utilization methods to
enable the model to precisely utilize all condition types, given their varied
correlations with the target video. Our experiments demonstrate that UniMMVSR
significantly outperforms existing methods, producing videos with superior
detail and a higher degree of conformity to multi-modal conditions. We also
validate the feasibility of combining UniMMVSR with a base model to achieve
multi-modal guided generation of 4K video, a feat previously unattainable with
existing techniques.