STAR: Пространственно-временное увеличение с помощью моделей текста-видео для суперразрешения видео в реальном мире.
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
Авторы: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
Аннотация
Модели диффузии изображений были адаптированы для суперразрешения видео в реальном мире с целью преодоления проблем слишком сглаженных изображений в методах, основанных на генеративно-состязательных сетях (GAN). Однако эти модели испытывают трудности с поддержанием временной согласованности, так как они обучаются на статических изображениях, что ограничивает их способность эффективно улавливать временную динамику. Интеграция моделей текст-в-видео (T2V) в суперразрешение видео для улучшения временного моделирования прямолинейна. Однако остаются две ключевые проблемы: артефакты, вносимые сложными деградациями в реальных сценариях, и ухудшенная достоверность из-за сильной генеративной способности мощных моделей T2V (например, CogVideoX-5B). Для улучшения пространственно-временного качества восстановленных видео мы представляем~\name (Пространственно-временное увеличение с использованием моделей T2V для суперразрешения видео в реальном мире), новый подход, который использует модели T2V для суперразрешения видео в реальном мире, достигая реалистичных пространственных деталей и надежной временной согласованности. Конкретно, мы предлагаем Модуль Увеличения Локальной Информации (LIEM) перед блоком глобального внимания для обогащения локальных деталей и смягчения артефактов деградации. Более того, мы предлагаем Динамическую Потерю Частоты (DF) для укрепления достоверности, направляя модель на фокусировку на различных частотных компонентах на протяжении шагов диффузии. Обширные эксперименты демонстрируют, что~\name~превосходит современные методы как на синтетических, так и на реальных наборах данных.
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary