ChatPaper.aiChatPaper

SeedVR2 : Restauration vidéo en une étape via post-entraînement adversarial par diffusion

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

June 5, 2025
papers.authors: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI

papers.abstract

Les récentes avancées dans la restauration vidéo basée sur la diffusion (VR) démontrent une amélioration significative de la qualité visuelle, mais entraînent un coût computationnel prohibitif lors de l'inférence. Bien que plusieurs approches basées sur la distillation aient montré le potentiel de la restauration d'image en une seule étape, l'extension de ces approches à la VR reste un défi et est encore peu explorée, en particulier lorsqu'il s'agit de vidéos haute résolution dans des contextes réels. Dans ce travail, nous proposons un modèle de VR basé sur la diffusion en une seule étape, appelé SeedVR2, qui effectue un entraînement adversarial de VR contre des données réelles. Pour gérer le défi de la VR haute résolution en une seule étape, nous introduisons plusieurs améliorations à la fois dans l'architecture du modèle et dans les procédures d'entraînement. Plus précisément, un mécanisme d'attention par fenêtre adaptative est proposé, où la taille de la fenêtre est ajustée dynamiquement pour s'adapter aux résolutions de sortie, évitant ainsi l'incohérence de fenêtre observée sous la VR haute résolution lors de l'utilisation d'une attention par fenêtre avec une taille prédéfinie. Pour stabiliser et améliorer l'entraînement adversarial postérieur pour la VR, nous vérifions en outre l'efficacité d'une série de fonctions de perte, y compris une fonction de perte de correspondance de caractéristiques proposée, sans sacrifier significativement l'efficacité de l'entraînement. Des expériences approfondies montrent que SeedVR2 peut atteindre des performances comparables, voire supérieures, à celles des approches de VR existantes en une seule étape.
English
Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.
PDF552June 6, 2025