UniMMVSR : Un Cadre Multi-Modal Unifié pour la Super-Résolution Vidéo en Cascade

papers.abstract

La super-résolution vidéo en cascade s'est imposée comme une technique prometteuse pour découpler la charge computationnelle associée à la génération de vidéos haute résolution à l'aide de grands modèles de base. Cependant, les études existantes se limitent largement aux tâches de texte-à-vidéo et ne parviennent pas à exploiter des conditions génératives supplémentaires au-delà du texte, qui sont pourtant cruciales pour garantir la fidélité dans la génération vidéo multi-modale. Nous abordons cette limitation en présentant UniMMVSR, le premier cadre unifié de super-résolution vidéo générative intégrant des conditions hybrides, incluant le texte, les images et les vidéos. Nous menons une exploration approfondie des stratégies d'injection de conditions, des schémas d'entraînement et des techniques de mélange de données au sein d'un modèle de diffusion vidéo latente. Un défi majeur a été de concevoir des méthodes distinctes de construction des données et d'utilisation des conditions pour permettre au modèle d'exploiter précisément tous les types de conditions, compte tenu de leurs corrélations variées avec la vidéo cible. Nos expériences démontrent qu'UniMMVSR surpasse significativement les méthodes existantes, produisant des vidéos avec des détails supérieurs et un degré de conformité plus élevé aux conditions multi-modales. Nous validons également la faisabilité de combiner UniMMVSR avec un modèle de base pour réaliser une génération guidée multi-modale de vidéos 4K, un exploit jusqu'alors inaccessible avec les techniques existantes.

English

Cascaded video super-resolution has emerged as a promising technique for decoupling the computational burden associated with generating high-resolution videos using large foundation models. Existing studies, however, are largely confined to text-to-video tasks and fail to leverage additional generative conditions beyond text, which are crucial for ensuring fidelity in multi-modal video generation. We address this limitation by presenting UniMMVSR, the first unified generative video super-resolution framework to incorporate hybrid-modal conditions, including text, images, and videos. We conduct a comprehensive exploration of condition injection strategies, training schemes, and data mixture techniques within a latent video diffusion model. A key challenge was designing distinct data construction and condition utilization methods to enable the model to precisely utilize all condition types, given their varied correlations with the target video. Our experiments demonstrate that UniMMVSR significantly outperforms existing methods, producing videos with superior detail and a higher degree of conformity to multi-modal conditions. We also validate the feasibility of combining UniMMVSR with a base model to achieve multi-modal guided generation of 4K video, a feat previously unattainable with existing techniques.

UniMMVSR : Un Cadre Multi-Modal Unifié pour la Super-Résolution Vidéo en Cascade

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

papers.abstract

Support