V-Bridge: Collegare le Priorità Generative Video per un Restauro Versatile di Immagini con Pochi Esempi

Abstract

I modelli generativi video su larga scala vengono addestrati su dati visivi vasti e diversificati, permettendo loro di interiorizzare ricchi precedenti strutturali, semantici e dinamici del mondo visivo. Sebbene questi modelli abbiano dimostrato capacità generative impressionanti, il loro potenziale come apprenditori visivi generici rimane in gran parte inesplorato. In questo lavoro, introduciamo V-Bridge, un framework che collega questa capacità latente a versatili compiti di restauro d'immagine few-shot. Reinterpretiamo il restauro d'immagine non come un problema di regressione statica, ma come un processo generativo progressivo, e sfruttiamo i modelli video per simulare il raffinamento graduale da input degradati a output ad alta fedeltà. Sorprendentemente, con soli 1.000 campioni di addestramento multi-task (meno del 2% dei metodi di restauro esistenti), i modelli video pre-addestrati possono essere indotti a eseguire un restauro d'immagine competitivo, svolgendo più compiti con un unico modello e rivaleggiando con architetture specializzate progettate esplicitamente per questo scopo. I nostri risultati rivelano che i modelli generativi video apprendono implicitamente potenti e trasferibili precedenti di restauro, che possono essere attivati con dati estremamente limitati, sfidando il tradizionale confine tra modellazione generativa e visione di basso livello, e aprendo un nuovo paradigma di progettazione per modelli di fondazione nei compiti visivi.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge: Collegare le Priorità Generative Video per un Restauro Versatile di Immagini con Pochi Esempi

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Abstract

Support