V-Bridge: Использование генеративных априорных знаний из видео для решения задач восстановления изображений при ограниченном количестве примеров

Аннотация

Крупномасштабные генеративные модели для видео обучаются на обширных и разнообразных визуальных данных, что позволяет им усваивать богатые структурные, семантические и динамические априорные представления о визуальном мире. Хотя эти модели продемонстрировали впечатляющие генеративные способности, их потенциал в качестве универсальных визуальных обучающихся систем в значительной степени остается нераскрытым. В данной работе мы представляем V-Bridge — фреймворк, который переносит эту скрытую способность на задачи многозадачной few-shot реставрации изображений. Мы переосмысливаем реставрацию изображений не как статичную регрессионную задачу, а как прогрессивный генеративный процесс, и используем видео-модели для имитации постепенного уточнения от деградировавших входных данных до выходных данных с высокой точностью. Удивительно, но с использованием всего 1000 мультизадачных обучающих примеров (менее 2% от объема, требуемого существующими методами реставрации), предобученные видео-модели можно адаптировать для выполнения конкурентоспособной реставрации изображений, решая несколько задач одной моделью и не уступая специализированным архитектурам, явно созданным для этой цели. Наши результаты показывают, что генеративные модели для видео неявно изучают мощные и переносимые априорные знания для реставрации, которые можно активировать с помощью крайне ограниченного объема данных, что ставит под сомнение традиционную границу между генеративным моделированием и низкоуровневым компьютерным зрением и открывает новую парадигму проектирования базовых моделей для визуальных задач.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge: Использование генеративных априорных знаний из видео для решения задач восстановления изображений при ограниченном количестве примеров

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Аннотация

Support