ChatPaper.aiChatPaper

STAR: Aumento Espacio-Temporal con Modelos de Texto a Video para Super-Resolución de Video en el Mundo Real

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

January 6, 2025
Autores: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI

Resumen

Los modelos de difusión de imágenes se han adaptado para la superresolución de videos del mundo real para abordar problemas de suavizado excesivo en métodos basados en GAN. Sin embargo, estos modelos tienen dificultades para mantener la consistencia temporal, ya que están entrenados en imágenes estáticas, lo que limita su capacidad para capturar de manera efectiva las dinámicas temporales. La integración de modelos de texto a video (T2V) en la superresolución de videos para mejorar el modelado temporal es directa. Sin embargo, dos desafíos clave persisten: artefactos introducidos por degradaciones complejas en escenarios del mundo real y fidelidad comprometida debido a la fuerte capacidad generativa de potentes modelos T2V (por ejemplo, CogVideoX-5B). Para mejorar la calidad espacio-temporal de videos restaurados, presentamos \name (Aumento Espacio-Temporal con modelos T2V para superresolución de videos del mundo real), un enfoque novedoso que aprovecha modelos T2V para la superresolución de videos del mundo real, logrando detalles espaciales realistas y una consistencia temporal sólida. Específicamente, introducimos un Módulo de Mejora de Información Local (LIEM) antes del bloque de atención global para enriquecer detalles locales y mitigar artefactos de degradación. Además, proponemos una Pérdida de Frecuencia Dinámica (DF) para reforzar la fidelidad, guiando al modelo para que se enfoque en diferentes componentes de frecuencia a lo largo de los pasos de difusión. Experimentos extensos demuestran que \name supera a los métodos de vanguardia en conjuntos de datos sintéticos y del mundo real.
English
Image diffusion models have been adapted for real-world video super-resolution to tackle over-smoothing issues in GAN-based methods. However, these models struggle to maintain temporal consistency, as they are trained on static images, limiting their ability to capture temporal dynamics effectively. Integrating text-to-video (T2V) models into video super-resolution for improved temporal modeling is straightforward. However, two key challenges remain: artifacts introduced by complex degradations in real-world scenarios, and compromised fidelity due to the strong generative capacity of powerful T2V models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of restored videos, we introduce~\name (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution), a novel approach that leverages T2V models for real-world video super-resolution, achieving realistic spatial details and robust temporal consistency. Specifically, we introduce a Local Information Enhancement Module (LIEM) before the global attention block to enrich local details and mitigate degradation artifacts. Moreover, we propose a Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus on different frequency components across diffusion steps. Extensive experiments demonstrate~\name~outperforms state-of-the-art methods on both synthetic and real-world datasets.

Summary

AI-Generated Summary

PDF563January 7, 2025