ChatPaper.aiChatPaper

SeedVR2: Restauração de Vídeo em Uma Etapa via Pós-Treinamento Adversarial com Difusão

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

June 5, 2025
Autores: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI

Resumo

Avanços recentes em restauração de vídeo baseada em difusão (VR) demonstram uma melhoria significativa na qualidade visual, mas resultam em um custo computacional proibitivo durante a inferência. Embora várias abordagens baseadas em destilação tenham mostrado o potencial de restauração de imagem em uma única etapa, estender as abordagens existentes para VR permanece desafiador e pouco explorado, especialmente ao lidar com vídeos de alta resolução em cenários do mundo real. Neste trabalho, propomos um modelo de VR baseado em difusão em uma única etapa, denominado SeedVR2, que realiza treinamento adversário de VR contra dados reais. Para lidar com o desafio de VR em alta resolução em uma única etapa, introduzimos várias melhorias tanto na arquitetura do modelo quanto nos procedimentos de treinamento. Especificamente, propomos um mecanismo de atenção adaptativa por janela, onde o tamanho da janela é ajustado dinamicamente para se adequar às resoluções de saída, evitando a inconsistência de janela observada em VR de alta resolução ao usar atenção por janela com um tamanho de janela pré-definido. Para estabilizar e melhorar o pós-treinamento adversário em direção à VR, verificamos ainda a eficácia de uma série de funções de perda, incluindo uma função de perda de correspondência de características proposta, sem sacrificar significativamente a eficiência do treinamento. Experimentos extensivos mostram que o SeedVR2 pode alcançar desempenho comparável ou até superior em comparação com as abordagens de VR existentes em uma única etapa.
English
Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.
PDF561June 6, 2025