ChatPaper.aiChatPaper

UniMMVSR: Een Geïntegreerd Multi-Modaal Framework voor Gecascadeerde Video-Superresolutie

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

October 9, 2025
Auteurs: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI

Samenvatting

Gecascadeerde video-superresolutie is naar voren gekomen als een veelbelovende techniek om de rekenlast te ontkoppelen die gepaard gaat met het genereren van hoogwaardige video's met behulp van grote foundation-modellen. Bestaande studies zijn echter grotendeels beperkt tot tekst-naar-video taken en benutten geen aanvullende generatieve condities buiten tekst, die cruciaal zijn voor het waarborgen van betrouwbaarheid bij multi-modale videogeneratie. Wij pakken deze beperking aan door UniMMVSR te presenteren, het eerste verenigde generatieve video-superresolutie raamwerk dat hybride-modale condities integreert, waaronder tekst, afbeeldingen en video's. We voeren een uitgebreid onderzoek uit naar conditie-injectiestrategieën, trainingsschema's en data-mengtechnieken binnen een latent video-diffusiemodel. Een belangrijke uitdaging was het ontwerpen van verschillende data-constructie- en conditiegebruiksmethoden om het model in staat te stellen alle conditietypen precies te benutten, gezien hun uiteenlopende correlaties met de doelvideo. Onze experimenten tonen aan dat UniMMVSR aanzienlijk beter presteert dan bestaande methoden, waarbij video's worden geproduceerd met superieure details en een hogere mate van conformiteit aan multi-modale condities. We valideren ook de haalbaarheid van het combineren van UniMMVSR met een basismodel om multi-modale geleide generatie van 4K-video te bereiken, een prestatie die voorheen onbereikbaar was met bestaande technieken.
English
Cascaded video super-resolution has emerged as a promising technique for decoupling the computational burden associated with generating high-resolution videos using large foundation models. Existing studies, however, are largely confined to text-to-video tasks and fail to leverage additional generative conditions beyond text, which are crucial for ensuring fidelity in multi-modal video generation. We address this limitation by presenting UniMMVSR, the first unified generative video super-resolution framework to incorporate hybrid-modal conditions, including text, images, and videos. We conduct a comprehensive exploration of condition injection strategies, training schemes, and data mixture techniques within a latent video diffusion model. A key challenge was designing distinct data construction and condition utilization methods to enable the model to precisely utilize all condition types, given their varied correlations with the target video. Our experiments demonstrate that UniMMVSR significantly outperforms existing methods, producing videos with superior detail and a higher degree of conformity to multi-modal conditions. We also validate the feasibility of combining UniMMVSR with a base model to achieve multi-modal guided generation of 4K video, a feat previously unattainable with existing techniques.
PDF203October 10, 2025