SeedVR2: Восстановление видео в один шаг с использованием диффузионного адверсарного пост-обучения
SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training
June 5, 2025
Авторы: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI
Аннотация
Последние достижения в области восстановления видео на основе диффузионных моделей (VR) демонстрируют значительное улучшение визуального качества, однако сопровождаются неприемлемо высокими вычислительными затратами на этапе вывода. Хотя несколько подходов, основанных на дистилляции, показали потенциал одношагового восстановления изображений, применение существующих методов к VR остается сложной и малоизученной задачей, особенно при работе с видео высокого разрешения в реальных условиях. В данной работе мы предлагаем одношаговую диффузионную модель для восстановления видео, названную SeedVR2, которая выполняет обучение с использованием состязательного подхода на реальных данных. Для решения задачи восстановления видео высокого разрешения в один шаг мы вводим несколько улучшений в архитектуру модели и процедуры обучения. В частности, предлагается механизм адаптивного оконного внимания, где размер окна динамически подстраивается под выходное разрешение, что позволяет избежать несоответствий, наблюдаемых при использовании оконного внимания с фиксированным размером окна в условиях высокого разрешения. Для стабилизации и улучшения состязательного пост-обучения в контексте VR мы дополнительно проверяем эффективность ряда функций потерь, включая предложенную функцию потерь на основе сопоставления признаков, без значительного ущерба для эффективности обучения. Многочисленные эксперименты показывают, что SeedVR2 может достичь сопоставимого или даже лучшего качества по сравнению с существующими подходами к VR всего за один шаг.
English
Recent advances in diffusion-based video restoration (VR) demonstrate
significant improvement in visual quality, yet yield a prohibitive
computational cost during inference. While several distillation-based
approaches have exhibited the potential of one-step image restoration,
extending existing approaches to VR remains challenging and underexplored,
particularly when dealing with high-resolution video in real-world settings. In
this work, we propose a one-step diffusion-based VR model, termed as SeedVR2,
which performs adversarial VR training against real data. To handle the
challenging high-resolution VR within a single step, we introduce several
enhancements to both model architecture and training procedures. Specifically,
an adaptive window attention mechanism is proposed, where the window size is
dynamically adjusted to fit the output resolutions, avoiding window
inconsistency observed under high-resolution VR using window attention with a
predefined window size. To stabilize and improve the adversarial post-training
towards VR, we further verify the effectiveness of a series of losses,
including a proposed feature matching loss without significantly sacrificing
training efficiency. Extensive experiments show that SeedVR2 can achieve
comparable or even better performance compared with existing VR approaches in a
single step.