V-Bridge: 다양한 퓨샷 이미지 복원을 위한 비디오 생성 사전 지식 연계
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration
March 13, 2026
저자: Shenghe Zheng, Junpeng Jiang, Wenbo Li
cs.AI
초록
대규모 비디오 생성 모델은 방대하고 다양한 시각 데이터로 학습되어 시각 세계의 풍부한 구조적, 의미론적, 동적 사전 지식을 내재화합니다. 이러한 모델들은 인상적인 생성 능력을 입증했으나, 범용 시각 학습자로서의 잠재력은 아직 크게 개척되지 않았습니다. 본 연구에서는 이러한 잠재 역량을 다양한 few-shot 이미지 복원 작업에 연결하는 프레임워크인 V-Bridge를 소개합니다. 우리는 이미지 복원을 정적인 회귀 문제가 아닌 점진적인 생성 과정으로 재해석하고, 비디오 모델을 활용하여 열화된 입력에서 고품질 출력으로의 점진적 정제 과정을 시뮬레이션합니다. 놀랍게도, 1,000개의 다중 작업 학습 샘플(기존 복원 방법의 2% 미만)만으로도 사전 학습된 비디오 모델이 경쟁력 있는 이미지 복원 성능을 발휘하도록 유도할 수 있으며, 단일 모델로 여러 작업을 수행하여 해당 목적으로 명시적으로 설계된 전문 아키텍처에 필적하는 결과를 달성합니다. 우리의 연구 결과는 비디오 생성 모델이 극히 제한된 데이터만으로도 활성화될 수 있는 강력하고 전이 가능한 복원 사전 지식을 암묵적으로 학습함을 보여주며, 생성 모델링과 저수준 컴퓨터 비전 간의 전통적 경계에 도전하고 시각 작업을 위한 파운데이션 모델의 새로운 설계 패러다임을 제시합니다.
English
Large-scale video generative models are trained on vast and diverse visual data, enabling them to internalize rich structural, semantic, and dynamic priors of the visual world. While these models have demonstrated impressive generative capability, their potential as general-purpose visual learners remains largely untapped. In this work, we introduce V-Bridge, a framework that bridges this latent capacity to versatile few-shot image restoration tasks. We reinterpret image restoration not as a static regression problem, but as a progressive generative process, and leverage video models to simulate the gradual refinement from degraded inputs to high-fidelity outputs. Surprisingly, with only 1,000 multi-task training samples (less than 2% of existing restoration methods), pretrained video models can be induced to perform competitive image restoration, achieving multiple tasks with a single model, rivaling specialized architectures designed explicitly for this purpose. Our findings reveal that video generative models implicitly learn powerful and transferable restoration priors that can be activated with only extremely limited data, challenging the traditional boundary between generative modeling and low-level vision, and opening a new design paradigm for foundation models in visual tasks.