SeedVR: Das Einbringen von Unendlichkeit in den Diffusion Transformer zur generischen Video-Restaurierung
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
January 2, 2025
Autoren: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
cs.AI
Zusammenfassung
Die Wiederherstellung von Videos stellt nicht-triviale Herausforderungen dar, um die Treue zu wahren und gleichzeitig zeitlich konsistente Details aus unbekannten Verschlechterungen in der Wildnis wiederherzustellen. Trotz der jüngsten Fortschritte bei der diffusionsbasierten Restaurierung stoßen diese Methoden häufig an Grenzen bei der Generierungsfähigkeit und der Abtasteffizienz. In dieser Arbeit präsentieren wir SeedVR, einen Diffusions-Transformer, der für die Bewältigung der Video-Restaurierung in der realen Welt mit beliebiger Länge und Auflösung entwickelt wurde. Das Kernkonzept von SeedVR liegt in der verschobenen Fensteraufmerksamkeit, die eine effektive Restaurierung von langen Videosequenzen ermöglicht. SeedVR unterstützt außerdem variabel große Fenster in der Nähe der Grenze sowohl der räumlichen als auch der zeitlichen Dimensionen und überwindet damit die Auflösungsbeschränkungen herkömmlicher Fensteraufmerksamkeit. Ausgestattet mit zeitgemäßen Praktiken, darunter kausaler Videoautoencoder, gemischtem Bild- und Videotraining sowie progressivem Training, erzielt SeedVR eine hochkompetitive Leistung sowohl bei synthetischen als auch bei realen Benchmarks sowie bei KI-generierten Videos. Umfangreiche Experimente belegen die Überlegenheit von SeedVR gegenüber bestehenden Methoden für die generische Video-Restaurierung.
English
Video restoration poses non-trivial challenges in maintaining fidelity while
recovering temporally consistent details from unknown degradations in the wild.
Despite recent advances in diffusion-based restoration, these methods often
face limitations in generation capability and sampling efficiency. In this
work, we present SeedVR, a diffusion transformer designed to handle real-world
video restoration with arbitrary length and resolution. The core design of
SeedVR lies in the shifted window attention that facilitates effective
restoration on long video sequences. SeedVR further supports variable-sized
windows near the boundary of both spatial and temporal dimensions, overcoming
the resolution constraints of traditional window attention. Equipped with
contemporary practices, including causal video autoencoder, mixed image and
video training, and progressive training, SeedVR achieves highly-competitive
performance on both synthetic and real-world benchmarks, as well as
AI-generated videos. Extensive experiments demonstrate SeedVR's superiority
over existing methods for generic video restoration.Summary
AI-Generated Summary