STAR: Augmentação Espaço-Temporal com Modelos de Texto-para-Vídeo para Super-Resolução de Vídeo no Mundo RealSTAR: Spatial-Temporal Augmentation with Text-to-Video Models for
Real-World Video Super-Resolution
Modelos de difusão de imagens foram adaptados para aprimorar a super resolução de vídeos do mundo real, a fim de lidar com problemas de suavização excessiva em métodos baseados em GAN. No entanto, esses modelos enfrentam dificuldades em manter consistência temporal, pois são treinados em imagens estáticas, o que limita sua capacidade de capturar dinâmicas temporais de forma eficaz. A integração de modelos texto-para-vídeo (T2V) na super resolução de vídeos para melhorar a modelagem temporal é direta. No entanto, dois desafios principais permanecem: artefatos introduzidos por degradações complexas em cenários do mundo real e fidelidade comprometida devido à forte capacidade generativa de modelos T2V poderosos (por exemplo, CogVideoX-5B). Para aprimorar a qualidade espaço-temporal de vídeos restaurados, apresentamos \textit{Nome do Método} (Aumento Espaço-Temporal com Modelos T2V para Super Resolução de Vídeos do Mundo Real), uma abordagem inovadora que aproveita modelos T2V para super resolução de vídeos do mundo real, alcançando detalhes espaciais realistas e consistência temporal robusta. Especificamente, introduzimos um Módulo de Aprimoramento de Informações Locais (LIEM) antes do bloco de atenção global para enriquecer detalhes locais e mitigar artefatos de degradação. Além disso, propomos uma Perda de Frequência Dinâmica (DF) para reforçar a fidelidade, orientando o modelo a focar em diferentes componentes de frequência ao longo das etapas de difusão. Experimentos extensos demonstram que \textit{Nome do Método} supera os métodos de ponta em conjuntos de dados sintéticos e do mundo real.