V-Bridge: Het overbruggen van videogeneratieve prioria naar veelzijdig few-shot beeldherstel

Samenvatting

Grootschalige videogeneratieve modellen worden getraind op enorme en diverse visuele datasets, waardoor ze rijke structurele, semantische en dynamische prior knowledge van de visuele wereld internaliseren. Hoewel deze modellen indrukwekkende generatieve capaciteiten hebben getoond, blijft hun potentieel als algemene visuele leersystemen grotendeels onbenut. In dit werk introduceren we V-Bridge, een raamwerk dat deze latente capaciteit verbindt met veelzijdige few-shot beeldrestauratietaken. We herinterpreteren beeldrestauratie niet als een statisch regressieprobleem, maar als een progressief generatief proces, en benutten videomodellen om de geleidelijke verfijning van gedegradeerde invoer naar hoogwaardige uitvoer te simuleren. Verrassend genoeg kunnen voorgetrainde videomodellen met slechts 1.000 multi-task trainingsamples (minder dan 2% van bestaande restauratiemethoden) worden aangezet tot competitieve beeldrestauratie, waarbij één model meerdere taken uitvoert en kan wedijveren met gespecialiseerde architecturen die expliciet voor dit doel zijn ontworpen. Onze bevindingen onthullen dat videogeneratieve modellen impliciet krachtige en overdraagbare restauratiepriors leren die met extreem beperkte data geactiveerd kunnen worden. Dit daagt de traditionele grens tussen generatief modelleren en low-level vision uit en opent een nieuw ontwerpparadigma voor foundationmodellen in visuele taken.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge: Het overbruggen van videogeneratieve prioria naar veelzijdig few-shot beeldherstel

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Samenvatting

Support