SeedVR: Het zaaien van oneindigheid in de Diffusion Transformer voor Generieke Videoherstelling.

Samenvatting

Videorestauratie stelt niet-triviale uitdagingen bij het behouden van de nauwkeurigheid terwijl tegelijkertijd consistentie in de tijd wordt hersteld van onbekende degradaties in het wild. Ondanks recente vooruitgang in diffusie-gebaseerde restauratie, worden deze methoden vaak geconfronteerd met beperkingen in generatiecapaciteit en bemonsteringsefficiëntie. In dit werk presenteren we SeedVR, een diffusietransformator ontworpen om videorestauratie in de echte wereld aan te pakken met willekeurige lengte en resolutie. De kern van SeedVR ligt in de verschoven vensteraandacht die effectieve restauratie mogelijk maakt op lange videosequenties. SeedVR ondersteunt verder variabel-grote vensters nabij de grens van zowel de ruimtelijke als de temporele dimensies, waardoor de resolutiebeperkingen van traditionele vensteraandacht worden overwonnen. Uitgerust met hedendaagse praktijken, waaronder causale video-autoencoder, gemengde beeld- en videotraining, en progressieve training, behaalt SeedVR een zeer competitieve prestatie op zowel synthetische als echte benchmarks, evenals door AI gegenereerde video's. Uitgebreide experimenten tonen de superioriteit van SeedVR aan ten opzichte van bestaande methoden voor generieke videorestauratie.

English

Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.

SeedVR: Het zaaien van oneindigheid in de Diffusion Transformer voor Generieke Videoherstelling.

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Samenvatting

Support