SeedVR : Semer l'infini dans le transformateur de diffusion vers la restauration vidéo générique
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
January 2, 2025
Auteurs: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
cs.AI
Résumé
La restauration vidéo pose des défis non triviaux pour maintenir la fidélité tout en récupérant des détails temporellement cohérents à partir de dégradations inconnues dans des environnements variés. Malgré les récents progrès réalisés dans la restauration basée sur la diffusion, ces méthodes sont souvent confrontées à des limitations en termes de capacité de génération et d'efficacité d'échantillonnage. Dans ce travail, nous présentons SeedVR, un transformateur de diffusion conçu pour gérer la restauration vidéo du monde réel avec une longueur et une résolution arbitraires. Le cœur de la conception de SeedVR réside dans l'attention à fenêtre décalée qui facilite une restauration efficace sur de longues séquences vidéo. SeedVR prend en charge en outre des fenêtres de tailles variables près de la limite des dimensions spatiales et temporelles, surmontant ainsi les contraintes de résolution de l'attention à fenêtre traditionnelle. Doté de pratiques contemporaines, telles qu'un autoencodeur vidéo causal, un entraînement mixte d'images et de vidéos, et un entraînement progressif, SeedVR atteint des performances très compétitives à la fois sur des benchmarks synthétiques et du monde réel, ainsi que sur des vidéos générées par IA. De vastes expériences démontrent la supériorité de SeedVR par rapport aux méthodes existantes pour la restauration vidéo générique.
English
Video restoration poses non-trivial challenges in maintaining fidelity while
recovering temporally consistent details from unknown degradations in the wild.
Despite recent advances in diffusion-based restoration, these methods often
face limitations in generation capability and sampling efficiency. In this
work, we present SeedVR, a diffusion transformer designed to handle real-world
video restoration with arbitrary length and resolution. The core design of
SeedVR lies in the shifted window attention that facilitates effective
restoration on long video sequences. SeedVR further supports variable-sized
windows near the boundary of both spatial and temporal dimensions, overcoming
the resolution constraints of traditional window attention. Equipped with
contemporary practices, including causal video autoencoder, mixed image and
video training, and progressive training, SeedVR achieves highly-competitive
performance on both synthetic and real-world benchmarks, as well as
AI-generated videos. Extensive experiments demonstrate SeedVR's superiority
over existing methods for generic video restoration.Summary
AI-Generated Summary