UniVid: 사전 학습된 비디오 생성 모델을 통한 비전 작업 통합
UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
September 26, 2025
저자: Lan Chen, Yuchao Gu, Qi Mao
cs.AI
초록
대규모 말뭉치로 훈련된 대형 언어 모델은 다양한 언어 작업을 단일 생성 프레임워크 내에서 성공적으로 통합합니다. 이를 영감으로, Large Vision Model(LVM)과 같은 최근 연구들은 이 패러다임을 비전 분야로 확장하여 작업을 순차적인 시각적 문장으로 구성하고, 시각적 프롬프트를 출력을 안내하는 컨텍스트로 사용합니다. 그러나 이러한 모델링은 다양한 모달리티와 소스에 걸친 작업별 사전 훈련을 필요로 하며, 이는 비용이 많이 들고 보이지 않는 작업으로의 확장성을 제한합니다. 사전 훈련된 비디오 생성 모델이 시간적 순서 의존성을 본질적으로 포착한다는 점을 고려하여, 우리는 더 통합적이고 확장 가능한 대안을 탐구합니다: 사전 훈련된 비디오 생성 모델이 다양한 이미지 및 비디오 작업에 적응할 수 있을까요? 이를 위해, 우리는 비디오 디퓨전 트랜스포머를 다양한 비전 작업을 처리하도록 미세 조정하는 UniVid 프레임워크를 제안합니다. 작업은 시각적 문장으로 표현되며, 컨텍스트 시퀀스는 작업과 예상 출력 모달리티를 모두 정의합니다. 우리는 UniVid의 일반화를 두 가지 관점에서 평가합니다: (1) 이미지와 비디오로 구성된 컨텍스트를 사용한 크로스 모달 추론, 이는 LVM의 단일 모달 설정을 넘어선 확장; (2) 자연 데이터에서 주석 데이터로의 크로스 소스 작업, 다중 소스 사전 훈련 없이. 자연 비디오 데이터만으로 훈련되었음에도 불구하고, UniVid는 두 설정에서 모두 잘 일반화됩니다. 특히, 이 패러다임에서 시각적 문장 순서를 단순히 뒤집는 것으로 이해와 생성 작업을 쉽게 전환할 수 있습니다. 이러한 발견들은 사전 훈련된 비디오 생성 모델이 비전 모델링을 위한 확장 가능하고 통합된 기반으로서의 잠재력을 강조합니다. 우리의 코드는 https://github.com/CUC-MIPG/UniVid에서 공개될 예정입니다.
English
Large language models, trained on extensive corpora, successfully unify
diverse linguistic tasks within a single generative framework. Inspired by
this, recent works like Large Vision Model (LVM) extend this paradigm to vision
by organizing tasks into sequential visual sentences, where visual prompts
serve as the context to guide outputs. However, such modeling requires
task-specific pre-training across modalities and sources, which is costly and
limits scalability to unseen tasks. Given that pre-trained video generation
models inherently capture temporal sequence dependencies, we explore a more
unified and scalable alternative: can a pre-trained video generation model
adapt to diverse image and video tasks? To answer this, we propose UniVid, a
framework that fine-tunes a video diffusion transformer to handle various
vision tasks without task-specific modifications. Tasks are represented as
visual sentences, where the context sequence defines both the task and the
expected output modality. We evaluate the generalization of UniVid from two
perspectives: (1) cross-modal inference with contexts composed of both images
and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks
from natural to annotated data, without multi-source pre-training. Despite
being trained solely on natural video data, UniVid generalizes well in both
settings. Notably, understanding and generation tasks can easily switch by
simply reversing the visual sentence order in this paradigm. These findings
highlight the potential of pre-trained video generation models to serve as a
scalable and unified foundation for vision modeling. Our code will be released
at https://github.com/CUC-MIPG/UniVid.