V-Bridge: Conectando los conocimientos previos generativos de video a la restauración versátil de imágenes con pocos ejemplos

Resumen

Los modelos generativos de video a gran escala se entrenan con datos visuales vastos y diversos, lo que les permite internalizar ricos conocimientos previos estructurales, semánticos y dinámicos del mundo visual. Si bien estos modelos han demostrado una capacidad generativa impresionante, su potencial como aprendices visuales de propósito general permanece en gran medida sin explotar. En este trabajo, presentamos V-Bridge, un marco que conecta esta capacidad latente con diversas tareas de restauración de imágenes con pocos ejemplos. Reinterpretamos la restauración de imágenes no como un problema de regresión estática, sino como un proceso generativo progresivo, y aprovechamos los modelos de video para simular el refinamiento gradual desde entradas degradadas hasta salidas de alta fidelidad. Sorprendentemente, con solo 1,000 muestras de entrenamiento multitarea (menos del 2% de los métodos de restauración existentes), se puede inducir a modelos de video preentrenados a realizar una restauración de imágenes competitiva, logrando múltiples tareas con un solo modelo que rivaliza con arquitecturas especializadas diseñadas explícitamente para este propósito. Nuestros hallazgos revelan que los modelos generativos de video aprenden implícitamente potentes conocimientos previos de restauración transferibles que pueden activarse con datos extremadamente limitados, desafiando el límite tradicional entre el modelado generativo y la visión de bajo nivel, y abriendo un nuevo paradigma de diseño para modelos base en tareas visuales.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge: Conectando los conocimientos previos generativos de video a la restauración versátil de imágenes con pocos ejemplos

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Resumen

Support