ChatPaper.aiChatPaper

SeedVR2: Einstufige Videorestaurierung durch diffusionsbasierte Adversarial-Post-Training

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

June 5, 2025
Autoren: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI

Zusammenfassung

Jüngste Fortschritte in der diffusionsbasierten Videorestaurierung (VR) zeigen eine deutliche Verbesserung der visuellen Qualität, führen jedoch zu einem prohibitiv hohen Rechenaufwand während der Inferenz. Während mehrere Distillationsansätze das Potenzial der Ein-Schritt-Bildrestaurierung aufgezeigt haben, bleibt die Erweiterung bestehender Ansätze auf VR herausfordernd und untererforscht, insbesondere bei der Verarbeitung von hochauflösenden Videos in realen Umgebungen. In dieser Arbeit schlagen wir ein Ein-Schritt-diffusionsbasiertes VR-Modell vor, das als SeedVR2 bezeichnet wird und ein adversarisches VR-Training gegen reale Daten durchführt. Um die anspruchsvolle hochauflösende VR in einem einzigen Schritt zu bewältigen, führen wir mehrere Verbesserungen sowohl in der Modellarchitektur als auch in den Trainingsverfahren ein. Insbesondere wird ein adaptiver Fenster-Attentionsmechanismus vorgeschlagen, bei dem die Fenstergröße dynamisch an die Ausgabeauflösungen angepasst wird, um Fensterinkonsistenzen zu vermeiden, die bei der hochauflösenden VR mit einer vordefinierten Fenstergröße beobachtet werden. Um das adversarische Nach-Training für VR zu stabilisieren und zu verbessern, überprüfen wir weiterhin die Wirksamkeit einer Reihe von Verlustfunktionen, einschließlich eines vorgeschlagenen Feature-Matching-Verlusts, ohne die Trainingseffizienz signifikant zu beeinträchtigen. Umfangreiche Experimente zeigen, dass SeedVR2 in einem einzigen Schritt eine vergleichbare oder sogar bessere Leistung im Vergleich zu bestehenden VR-Ansätzen erzielen kann.
English
Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.
PDF461June 6, 2025