V-Bridge: Conectando Prioridades Geradoras de Vídeo à Restauração Versátil de Imagens com Poucos Exemplos

Resumo

Os modelos generativos de vídeo em larga escala são treinados com vastos e diversificados dados visuais, permitindo-lhes internalizar ricos pré-conhecimentos estruturais, semânticos e dinâmicos do mundo visual. Embora esses modelos tenham demonstrado capacidade generativa impressionante, seu potencial como aprendizes visuais de propósito geral permanece amplamente inexplorado. Neste trabalho, apresentamos o V-Bridge, uma estrutura que conecta essa capacidade latente a tarefas versáteis de restauração de imagem com poucos exemplos. Reinterpretamos a restauração de imagem não como um problema de regressão estática, mas como um processo generativo progressivo, e aproveitamos os modelos de vídeo para simular o refinamento gradual de entradas degradadas para saídas de alta fidelidade. Surpreendentemente, com apenas 1.000 amostras de treinamento multitarefa (menos de 2% dos métodos de restauração existentes), modelos de vídeo pré-treinados podem ser induzidos a realizar restauração competitiva de imagens, alcançando múltiplas tarefas com um único modelo, rivalizando com arquiteturas especializadas projetadas explicitamente para esse fim. Nossas descobertas revelam que modelos generativos de vídeo aprendem implicitamente poderosos pré-conhecimentos de restauração transferíveis que podem ser ativados com dados extremamente limitados, desafiando o limite tradicional entre modelagem generativa e visão de baixo nível, e abrindo um novo paradigma de projeto para modelos de base em tarefas visuais.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge: Conectando Prioridades Geradoras de Vídeo à Restauração Versátil de Imagens com Poucos Exemplos

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Resumo

Support