UniMMVSR: Унифицированная мультимодальная архитектура для каскадного повышения разрешения видео
UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
October 9, 2025
Авторы: Shian Du, Menghan Xia, Chang Liu, Quande Liu, Xintao Wang, Pengfei Wan, Xiangyang Ji
cs.AI
Аннотация
Каскадное видео супер-разрешение стало перспективной техникой для снижения вычислительной нагрузки, связанной с генерацией видео высокого разрешения с использованием крупных базовых моделей. Однако существующие исследования в основном ограничиваются задачами текстового преобразования в видео и не используют дополнительные генеративные условия помимо текста, которые крайне важны для обеспечения точности в многомодальной генерации видео. Мы устраняем это ограничение, представляя UniMMVSR — первую унифицированную генеративную модель видео супер-разрешения, которая включает гибридные модальные условия, такие как текст, изображения и видео. Мы проводим всестороннее исследование стратегий внедрения условий, схем обучения и методов смешивания данных в рамках латентной модели диффузии видео. Основной сложностью стало проектирование различных методов построения данных и использования условий, чтобы модель могла точно задействовать все типы условий, учитывая их различную корреляцию с целевым видео. Наши эксперименты показывают, что UniMMVSR значительно превосходит существующие методы, создавая видео с более детализированным изображением и высокой степенью соответствия многомодальным условиям. Мы также подтверждаем возможность комбинирования UniMMVSR с базовой моделью для достижения многомодально направленной генерации 4K видео, что ранее было недостижимо с использованием существующих техник.
English
Cascaded video super-resolution has emerged as a promising technique for
decoupling the computational burden associated with generating high-resolution
videos using large foundation models. Existing studies, however, are largely
confined to text-to-video tasks and fail to leverage additional generative
conditions beyond text, which are crucial for ensuring fidelity in multi-modal
video generation. We address this limitation by presenting UniMMVSR, the first
unified generative video super-resolution framework to incorporate hybrid-modal
conditions, including text, images, and videos. We conduct a comprehensive
exploration of condition injection strategies, training schemes, and data
mixture techniques within a latent video diffusion model. A key challenge was
designing distinct data construction and condition utilization methods to
enable the model to precisely utilize all condition types, given their varied
correlations with the target video. Our experiments demonstrate that UniMMVSR
significantly outperforms existing methods, producing videos with superior
detail and a higher degree of conformity to multi-modal conditions. We also
validate the feasibility of combining UniMMVSR with a base model to achieve
multi-modal guided generation of 4K video, a feat previously unattainable with
existing techniques.