V-Bridge : Relier les connaissances préalables génératives vidéo à la restauration d'images polyvalente en few-shot

Résumé

Les modèles génératifs vidéo à grande échelle sont entraînés sur des données visuelles vastes et diversifiées, leur permettant d'intérioriser des connaissances préalables riches sur la structure, la sémantique et la dynamique du monde visuel. Bien que ces modèles aient démontré des capacités génératives impressionnantes, leur potentiel en tant qu'apprenants visuels généralistes reste largement inexploité. Dans ce travail, nous présentons V-Bridge, un cadre qui relie cette capacité latente à des tâches polyvalentes de restauration d'images en few-shot. Nous réinterprétons la restauration d'images non pas comme un problème de régression statique, mais comme un processus génératif progressif, et exploitons les modèles vidéo pour simuler le raffinement graduel d'entrées dégradées vers des sorties haute fidélité. De manière surprenante, avec seulement 1 000 échantillons d'entraînement multi-tâches (moins de 2% des méthodes de restauration existantes), les modèles vidéo pré-entraînés peuvent être amenés à réaliser une restauration d'images compétitive, accomplissant multiples tâches avec un seul modèle, rivalisant avec des architectures spécialisées conçues explicitement pour cet usage. Nos résultats révèlent que les modèles génératifs vidéo apprennent implicitement des connaissances préalables de restauration puissantes et transférables, qui peuvent être activées avec des données extrêmement limitées, remettant en cause la frontière traditionnelle entre la modélisation générative et la vision bas niveau, et ouvrant un nouveau paradigme de conception pour les modèles fondateurs dans les tâches visuelles.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge : Relier les connaissances préalables génératives vidéo à la restauration d'images polyvalente en few-shot

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Résumé

Support