ChatPaper.aiChatPaper

UniMMVSR: Un Framework Multi-Modale Unificato per la Super-Risoluzione a Cascata nei Video

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

October 9, 2025
Autori: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI

Abstract

La super-risoluzione video a cascata è emersa come una tecnica promettente per decuplicare il carico computazionale associato alla generazione di video ad alta risoluzione utilizzando grandi modelli di base. Tuttavia, gli studi esistenti sono in gran parte limitati a compiti di testo-video e non sfruttano condizioni generative aggiuntive oltre al testo, che sono cruciali per garantire la fedeltà nella generazione video multi-modale. Affrontiamo questa limitazione presentando UniMMVSR, il primo framework unificato di super-risoluzione video generativa che incorpora condizioni ibride, tra cui testo, immagini e video. Conduciamo un'esplorazione completa delle strategie di iniezione delle condizioni, degli schemi di addestramento e delle tecniche di miscelazione dei dati all'interno di un modello di diffusione video latente. Una sfida chiave è stata la progettazione di metodi distinti per la costruzione dei dati e l'utilizzo delle condizioni, per consentire al modello di utilizzare con precisione tutti i tipi di condizioni, data la loro varia correlazione con il video target. I nostri esperimenti dimostrano che UniMMVSR supera significativamente i metodi esistenti, producendo video con dettagli superiori e un grado più elevato di conformità alle condizioni multi-modali. Validiamo inoltre la fattibilità di combinare UniMMVSR con un modello di base per ottenere la generazione guidata multi-modale di video 4K, un risultato precedentemente irraggiungibile con le tecniche esistenti.
English
Cascaded video super-resolution has emerged as a promising technique for decoupling the computational burden associated with generating high-resolution videos using large foundation models. Existing studies, however, are largely confined to text-to-video tasks and fail to leverage additional generative conditions beyond text, which are crucial for ensuring fidelity in multi-modal video generation. We address this limitation by presenting UniMMVSR, the first unified generative video super-resolution framework to incorporate hybrid-modal conditions, including text, images, and videos. We conduct a comprehensive exploration of condition injection strategies, training schemes, and data mixture techniques within a latent video diffusion model. A key challenge was designing distinct data construction and condition utilization methods to enable the model to precisely utilize all condition types, given their varied correlations with the target video. Our experiments demonstrate that UniMMVSR significantly outperforms existing methods, producing videos with superior detail and a higher degree of conformity to multi-modal conditions. We also validate the feasibility of combining UniMMVSR with a base model to achieve multi-modal guided generation of 4K video, a feat previously unattainable with existing techniques.
PDF203October 10, 2025