STAR: Aumento Espacio-Temporal con Modelos de Texto a Video para
Super-Resolución de Video en el Mundo RealSTAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
Los modelos de difusión de imágenes se han adaptado para la superresolución de videos del mundo real para abordar problemas de suavizado excesivo en métodos basados en GAN. Sin embargo, estos modelos tienen dificultades para mantener la consistencia temporal, ya que están entrenados en imágenes estáticas, lo que limita su capacidad para capturar de manera efectiva las dinámicas temporales. La integración de modelos de texto a video (T2V) en la superresolución de videos para mejorar el modelado temporal es directa. Sin embargo, dos desafíos clave persisten: artefactos introducidos por degradaciones complejas en escenarios del mundo real y fidelidad comprometida debido a la fuerte capacidad generativa de potentes modelos T2V (por ejemplo, CogVideoX-5B). Para mejorar la calidad espacio-temporal de videos restaurados, presentamos \name (Aumento Espacio-Temporal con modelos T2V para superresolución de videos del mundo real), un enfoque novedoso que aprovecha modelos T2V para la superresolución de videos del mundo real, logrando detalles espaciales realistas y una consistencia temporal sólida. Específicamente, introducimos un Módulo de Mejora de Información Local (LIEM) antes del bloque de atención global para enriquecer detalles locales y mitigar artefactos de degradación. Además, proponemos una Pérdida de Frecuencia Dinámica (DF) para reforzar la fidelidad, guiando al modelo para que se enfoque en diferentes componentes de frecuencia a lo largo de los pasos de difusión. Experimentos extensos demuestran que \name supera a los métodos de vanguardia en conjuntos de datos sintéticos y del mundo real.