ChatPaper.aiChatPaper

SeedVR2: Restauración de Video en un Solo Paso mediante Difusión Adversaria Post-Entrenamiento

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

June 5, 2025
Autores: Jianyi Wang, Shanchuan Lin, Zhijie Lin, Yuxi Ren, Meng Wei, Zongsheng Yue, Shangchen Zhou, Hao Chen, Yang Zhao, Ceyuan Yang, Xuefeng Xiao, Chen Change Loy, Lu Jiang
cs.AI

Resumen

Los avances recientes en la restauración de video basada en difusión (VR, por sus siglas en inglés) demuestran una mejora significativa en la calidad visual, pero conllevan un costo computacional prohibitivo durante la inferencia. Si bien varios enfoques basados en destilación han mostrado el potencial de la restauración de imágenes en un solo paso, extender los enfoques existentes a la VR sigue siendo un desafío y está poco explorado, especialmente cuando se trata de video de alta resolución en entornos del mundo real. En este trabajo, proponemos un modelo de VR basado en difusión de un solo paso, denominado SeedVR2, que realiza entrenamiento adversario de VR con datos reales. Para manejar la VR de alta resolución en un solo paso, introducimos varias mejoras tanto en la arquitectura del modelo como en los procedimientos de entrenamiento. Específicamente, se propone un mecanismo de atención de ventana adaptativa, donde el tamaño de la ventana se ajusta dinámicamente para adaptarse a las resoluciones de salida, evitando la inconsistencia de ventana observada en VR de alta resolución al utilizar atención de ventana con un tamaño predefinido. Para estabilizar y mejorar el entrenamiento adversario posterior hacia la VR, verificamos además la efectividad de una serie de pérdidas, incluyendo una pérdida de coincidencia de características propuesta, sin sacrificar significativamente la eficiencia del entrenamiento. Experimentos extensos muestran que SeedVR2 puede lograr un rendimiento comparable o incluso mejor en comparación con los enfoques de VR existentes en un solo paso.
English
Recent advances in diffusion-based video restoration (VR) demonstrate significant improvement in visual quality, yet yield a prohibitive computational cost during inference. While several distillation-based approaches have exhibited the potential of one-step image restoration, extending existing approaches to VR remains challenging and underexplored, particularly when dealing with high-resolution video in real-world settings. In this work, we propose a one-step diffusion-based VR model, termed as SeedVR2, which performs adversarial VR training against real data. To handle the challenging high-resolution VR within a single step, we introduce several enhancements to both model architecture and training procedures. Specifically, an adaptive window attention mechanism is proposed, where the window size is dynamically adjusted to fit the output resolutions, avoiding window inconsistency observed under high-resolution VR using window attention with a predefined window size. To stabilize and improve the adversarial post-training towards VR, we further verify the effectiveness of a series of losses, including a proposed feature matching loss without significantly sacrificing training efficiency. Extensive experiments show that SeedVR2 can achieve comparable or even better performance compared with existing VR approaches in a single step.
PDF461June 6, 2025