V-Bridge: Brückenschlag zwischen generativen Video-Prioritäten und vielseitiger Few-Shot-Bildrestaurierung

Zusammenfassung

Große generative Videomodelle werden auf umfangreichen und vielfältigen visuellen Daten trainiert, wodurch sie reichhaltige strukturelle, semantische und dynamische A-priori-Informationen der visuellen Welt internalisieren können. Obwohl diese Modelle beeindruckende Generierungsfähigkeiten demonstriert haben, bleibt ihr Potenzial als allgemeine visuelle Lernsysteme weitgehend ungenutzt. In dieser Arbeit stellen wir V-Bridge vor, ein Framework, das diese latente Fähigkeit mit vielseitigen Few-Shot-Bildrestaurierungsaufgaben verbindet. Wir interpretieren Bildrestaurierung nicht als statisches Regressionsproblem, sondern als progressiven Generierungsprozess und nutzen Videomodelle, um die schrittweise Verfeinerung von degradierten Eingaben zu hochwertigen Ausgaben zu simulieren. Überraschenderweise können vortrainierte Videomodelle mit nur 1.000 Multi-Task-Trainingsbeispielen (weniger als 2% bestehender Restaurierungsmethoden) zu konkurrenzfähiger Bildrestaurierung veranlasst werden, wobei ein einzelnes Modell mehrere Aufgaben bewältigt und sich mit spezialisierten Architekturen messen kann, die explizit für diesen Zweck entwickelt wurden. Unsere Ergebnisse zeigen, dass generative Videomodelle implizit leistungsstarke und übertragbare Restaurierungsprioritäten lernen, die mit extrem begrenzten Daten aktiviert werden können. Dies stellt die traditionelle Grenze zwischen generativer Modellierung und Low-Level-Vision in Frage und eröffnet ein neues Designparadigma für Foundation-Modelle in visuellen Aufgaben.

English

Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.

V-Bridge: Brückenschlag zwischen generativen Video-Prioritäten und vielseitiger Few-Shot-Bildrestaurierung

V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Zusammenfassung

Support