UniMMVSR: Ein einheitliches Multi-Modales Framework für kaskadierte Video-Superauflösung
UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
October 9, 2025
papers.authors: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI
papers.abstract
Die kaskadierte Video-Superauflösung hat sich als vielversprechende Technik erwiesen, um die rechenintensive Erzeugung hochauflösender Videos mit großen Basismodellen zu entkoppeln. Bisherige Studien beschränken sich jedoch weitgehend auf Text-zu-Video-Aufgaben und nutzen keine zusätzlichen generativen Bedingungen jenseits von Text, die für die Gewährleistung der Treue bei der multimodalen Videogenerierung entscheidend sind. Wir beheben diese Einschränkung durch die Vorstellung von UniMMVSR, dem ersten einheitlichen generativen Video-Superauflösungs-Framework, das hybride modale Bedingungen wie Text, Bilder und Videos integriert. Wir führen eine umfassende Untersuchung von Bedingungsinjektionsstrategien, Trainingsschemata und Datenmischtechniken innerhalb eines latenten Video-Diffusionsmodells durch. Eine zentrale Herausforderung bestand darin, unterschiedliche Datenkonstruktions- und Bedingungsnutzungsmethoden zu entwerfen, damit das Modell alle Bedingungstypen präzise nutzen kann, angesichts ihrer unterschiedlichen Korrelationen mit dem Zielvideo. Unsere Experimente zeigen, dass UniMMVSR bestehende Methoden deutlich übertrifft und Videos mit überlegenen Details und einem höheren Grad an Übereinstimmung mit multimodalen Bedingungen erzeugt. Wir validieren auch die Machbarkeit der Kombination von UniMMVSR mit einem Basismodell, um eine multimodal gesteuerte Generierung von 4K-Videos zu erreichen, ein bisher mit bestehenden Techniken unerreichbares Ziel.
English
Cascaded video super-resolution has emerged as a promising technique for
decoupling the computational burden associated with generating high-resolution
videos using large foundation models. Existing studies, however, are largely
confined to text-to-video tasks and fail to leverage additional generative
conditions beyond text, which are crucial for ensuring fidelity in multi-modal
video generation. We address this limitation by presenting UniMMVSR, the first
unified generative video super-resolution framework to incorporate hybrid-modal
conditions, including text, images, and videos. We conduct a comprehensive
exploration of condition injection strategies, training schemes, and data
mixture techniques within a latent video diffusion model. A key challenge was
designing distinct data construction and condition utilization methods to
enable the model to precisely utilize all condition types, given their varied
correlations with the target video. Our experiments demonstrate that UniMMVSR
significantly outperforms existing methods, producing videos with superior
detail and a higher degree of conformity to multi-modal conditions. We also
validate the feasibility of combining UniMMVSR with a base model to achieve
multi-modal guided generation of 4K video, a feat previously unattainable with
existing techniques.