SeedVR2: Eénstaps Videorestauratie via Diffusie Adversariaal Na-Training
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
June 5, 2025
Auteurs: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde videorestauratie (VR) toont aanzienlijke verbeteringen in visuele kwaliteit, maar resulteert in een onhoudbaar hoge rekencapaciteit tijdens inferentie. Hoewel verschillende destillatiegebaseerde benaderingen het potentieel van eenstapsbeeldrestauratie hebben aangetoond, blijft het uitbreiden van bestaande benaderingen naar VR uitdagend en onderbelicht, vooral bij het omgaan met hoogresolutievideo in realistische omgevingen. In dit werk stellen we een eenstaps diffusiegebaseerd VR-model voor, genaamd SeedVR2, dat adversariële VR-training uitvoert tegen echte data. Om de uitdagende hoogresolutie VR in één stap te behandelen, introduceren we verschillende verbeteringen in zowel modelarchitectuur als trainingsprocedures. Specifiek wordt een adaptief venster-attentiemechanisme voorgesteld, waarbij de venstergrootte dynamisch wordt aangepast aan de uitvoerresoluties, waardoor vensterinconsistentie wordt vermeden die wordt waargenomen bij hoogresolutie VR bij gebruik van venster-attentie met een vooraf gedefinieerde venstergrootte. Om de adversariële na-training voor VR te stabiliseren en te verbeteren, verifiëren we verder de effectiviteit van een reeks verliezen, inclusief een voorgesteld kenmerk-matchingverlies zonder de trainingsefficiëntie significant op te offeren. Uitgebreide experimenten tonen aan dat SeedVR2 vergelijkbare of zelfs betere prestaties kan bereiken in vergelijking met bestaande VR-benaderingen in één stap.
English
Recent advances in diffusion-based video restoration (VR) demonstrate
significant improvement in visual quality, yet yield a prohibitive
computational cost during inference. While several distillation-based
approaches have exhibited the potential of one-step image restoration,
extending existing approaches to VR remains challenging and underexplored,
particularly when dealing with high-resolution video in real-world settings. In
this work, we propose a one-step diffusion-based VR model, termed as SeedVR2,
which performs adversarial VR training against real data. To handle the
challenging high-resolution VR within a single step, we introduce several
enhancements to both model architecture and training procedures. Specifically,
an adaptive window attention mechanism is proposed, where the window size is
dynamically adjusted to fit the output resolutions, avoiding window
inconsistency observed under high-resolution VR using window attention with a
predefined window size. To stabilize and improve the adversarial post-training
towards VR, we further verify the effectiveness of a series of losses,
including a proposed feature matching loss without significantly sacrificing
training efficiency. Extensive experiments show that SeedVR2 can achieve
comparable or even better performance compared with existing VR approaches in a
single step.