ChatPaper.aiChatPaper

SeedVR: Засеивание бесконечности в трансформере диффузии к общему восстановлению видео.

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

January 2, 2025
Авторы: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
cs.AI

Аннотация

Восстановление видео представляет собой нетривиальную задачу в поддержании достоверности при восстановлении временно согласованных деталей из неизвестных искажений в дикой природе. Несмотря на недавние успехи в восстановлении на основе диффузии, эти методы часто сталкиваются с ограничениями в возможностях генерации и эффективности выборки. В данной работе мы представляем SeedVR, диффузионный трансформер, разработанный для обработки восстановления видео в реальном мире произвольной длины и разрешения. Основное преимущество SeedVR заключается в сдвинутом оконном внимании, способствующем эффективному восстановлению на длинных видео последовательностях. SeedVR также поддерживает окна переменного размера у границ как пространственных, так и временных измерений, преодолевая ограничения разрешения традиционного оконного внимания. Оборудованный современными практиками, включая причинный видео автокодировщик, смешанное обучение изображений и видео, и поэтапное обучение, SeedVR достигает высококонкурентоспособной производительности как на синтетических и реальных тестах, так и на видео, созданных искусственным интеллектом. Обширные эксперименты демонстрируют превосходство SeedVR над существующими методами для общего восстановления видео.
English
Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.

Summary

AI-Generated Summary

PDF112January 3, 2025