UniMMVSR: Унифицированная мультимодальная архитектура для каскадного повышения разрешения видео

Аннотация

Каскадное видео супер-разрешение стало перспективной техникой для снижения вычислительной нагрузки, связанной с генерацией видео высокого разрешения с использованием крупных базовых моделей. Однако существующие исследования в основном ограничиваются задачами текстового преобразования в видео и не используют дополнительные генеративные условия помимо текста, которые крайне важны для обеспечения точности в многомодальной генерации видео. Мы устраняем это ограничение, представляя UniMMVSR — первую унифицированную генеративную модель видео супер-разрешения, которая включает гибридные модальные условия, такие как текст, изображения и видео. Мы проводим всестороннее исследование стратегий внедрения условий, схем обучения и методов смешивания данных в рамках латентной модели диффузии видео. Основной сложностью стало проектирование различных методов построения данных и использования условий, чтобы модель могла точно задействовать все типы условий, учитывая их различную корреляцию с целевым видео. Наши эксперименты показывают, что UniMMVSR значительно превосходит существующие методы, создавая видео с более детализированным изображением и высокой степенью соответствия многомодальным условиям. Мы также подтверждаем возможность комбинирования UniMMVSR с базовой моделью для достижения многомодально направленной генерации 4K видео, что ранее было недостижимо с использованием существующих техник.

English

Cascaded video super-resolution has emerged as a promising technique for decoupling the computational burden associated with generating high-resolution videos using large foundation models. Existing studies, however, are largely confined to text-to-video tasks and fail to leverage additional generative conditions beyond text, which are crucial for ensuring fidelity in multi-modal video generation. We address this limitation by presenting UniMMVSR, the first unified generative video super-resolution framework to incorporate hybrid-modal conditions, including text, images, and videos. We conduct a comprehensive exploration of condition injection strategies, training schemes, and data mixture techniques within a latent video diffusion model. A key challenge was designing distinct data construction and condition utilization methods to enable the model to precisely utilize all condition types, given their varied correlations with the target video. Our experiments demonstrate that UniMMVSR significantly outperforms existing methods, producing videos with superior detail and a higher degree of conformity to multi-modal conditions. We also validate the feasibility of combining UniMMVSR with a base model to achieve multi-modal guided generation of 4K video, a feat previously unattainable with existing techniques.

UniMMVSR: Унифицированная мультимодальная архитектура для каскадного повышения разрешения видео

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

Аннотация

Support