SeedVR: Sembrando el Infinito en el Transformador de Difusión Hacia la Restauración Genérica de Video

Resumen

La restauración de video plantea desafíos no triviales en mantener la fidelidad mientras se recuperan detalles temporalmente consistentes de degradaciones desconocidas en entornos diversos. A pesar de los avances recientes en la restauración basada en difusión, estos métodos a menudo enfrentan limitaciones en la capacidad de generación y eficiencia de muestreo. En este trabajo, presentamos SeedVR, un transformador de difusión diseñado para manejar la restauración de video del mundo real con longitud y resolución arbitrarias. El diseño central de SeedVR radica en la atención de ventana desplazada que facilita la restauración efectiva en secuencias de video largas. SeedVR también soporta ventanas de tamaño variable cerca del límite de ambas dimensiones espaciales y temporales, superando las limitaciones de resolución de la atención de ventana tradicional. Equipado con prácticas contemporáneas, incluyendo autoencoder de video causal, entrenamiento mixto de imágenes y video, y entrenamiento progresivo, SeedVR logra un rendimiento altamente competitivo tanto en benchmarks sintéticos como del mundo real, así como en videos generados por IA. Experimentos extensos demuestran la superioridad de SeedVR sobre los métodos existentes para la restauración genérica de video.

English

Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.

SeedVR: Sembrando el Infinito en el Transformador de Difusión Hacia la Restauración Genérica de Video

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Resumen

Support