ChatPaper.aiChatPaper

SeedVR2: Ripristino video in un unico passaggio tramite addestramento post-diffusione avversaria

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

June 5, 2025
Autori: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI

Abstract

I recenti progressi nel restauro video basato su diffusione (VR) dimostrano un significativo miglioramento nella qualità visiva, ma comportano un costo computazionale proibitivo durante l'inferenza. Sebbene diversi approcci basati su distillazione abbiano mostrato il potenziale del restauro delle immagini in un singolo passaggio, estendere gli approcci esistenti al VR rimane impegnativo e poco esplorato, specialmente quando si tratta di video ad alta risoluzione in contesti reali. In questo lavoro, proponiamo un modello di VR basato su diffusione in un singolo passaggio, denominato SeedVR2, che esegue un addestramento VR avversario su dati reali. Per gestire la sfida del VR ad alta risoluzione in un singolo passaggio, introduciamo diversi miglioramenti sia all'architettura del modello che alle procedure di addestramento. In particolare, viene proposto un meccanismo di attenzione a finestra adattativa, in cui la dimensione della finestra viene regolata dinamicamente per adattarsi alle risoluzioni di output, evitando l'inconsistenza della finestra osservata nel VR ad alta risoluzione utilizzando l'attenzione a finestra con una dimensione predefinita. Per stabilizzare e migliorare l'addestramento avversario post-VR, verifichiamo ulteriormente l'efficacia di una serie di perdite, inclusa una perdita di corrispondenza delle caratteristiche proposta, senza sacrificare significativamente l'efficienza dell'addestramento. Esperimenti estesi dimostrano che SeedVR2 può raggiungere prestazioni comparabili o addirittura migliori rispetto agli approcci VR esistenti in un singolo passaggio.
English
Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.
PDF552June 6, 2025