ChatPaper.aiChatPaper

UniVid: Het verenigen van visuele taken met vooraf getrainde videogeneratiemodellen

UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

September 26, 2025
Auteurs: Lan Chen, Yuchao Gu, Qi Mao
cs.AI

Samenvatting

Grote taalmodellen, getraind op uitgebreide corpora, verenigen met succes diverse taalkundige taken binnen een enkel generatief raamwerk. Geïnspireerd door dit, breiden recente werken zoals het Large Vision Model (LVM) dit paradigma uit naar visie door taken te organiseren in sequentiële visuele zinnen, waarbij visuele prompts dienen als context om uitvoer te sturen. Echter, vereist dergelijke modellering taakspecifieke voorafgaande training over modaliteiten en bronnen, wat kostbaar is en de schaalbaarheid naar onbekende taken beperkt. Gegeven dat vooraf getrainde videogeneratiemodellen inherent temporele sequentieafhankelijkheden vastleggen, verkennen we een meer verenigde en schaalbare alternatieve benadering: kan een vooraf getraind videogeneratiemodel zich aanpassen aan diverse beeld- en videotaken? Om dit te beantwoorden, stellen we UniVid voor, een raamwerk dat een videodiffusietransformer fine-tunt om diverse visietaken aan te kunnen zonder taakspecifieke aanpassingen. Taken worden weergegeven als visuele zinnen, waarbij de contextsequentie zowel de taak als de verwachte uitvoermodaliteit definieert. We evalueren de generalisatie van UniVid vanuit twee perspectieven: (1) kruismodale inferentie met contexten samengesteld uit zowel beelden als video's, wat verder gaat dan LVM's unimodale instelling; (2) kruisbron taken van natuurlijke naar geannoteerde data, zonder multi-bron voorafgaande training. Ondanks dat UniVid uitsluitend is getraind op natuurlijke videodata, generaliseert het goed in beide instellingen. Opmerkelijk is dat begrips- en generatietaken eenvoudig kunnen worden gewisseld door simpelweg de volgorde van de visuele zin in dit paradigma om te keren. Deze bevindingen benadrukken het potentieel van vooraf getrainde videogeneratiemodellen om te dienen als een schaalbare en verenigde basis voor visiemodellering. Onze code zal worden vrijgegeven op https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify diverse linguistic tasks within a single generative framework. Inspired by this, recent works like Large Vision Model (LVM) extend this paradigm to vision by organizing tasks into sequential visual sentences, where visual prompts serve as the context to guide outputs. However, such modeling requires task-specific pre-training across modalities and sources, which is costly and limits scalability to unseen tasks. Given that pre-trained video generation models inherently capture temporal sequence dependencies, we explore a more unified and scalable alternative: can a pre-trained video generation model adapt to diverse image and video tasks? To answer this, we propose UniVid, a framework that fine-tunes a video diffusion transformer to handle various vision tasks without task-specific modifications. Tasks are represented as visual sentences, where the context sequence defines both the task and the expected output modality. We evaluate the generalization of UniVid from two perspectives: (1) cross-modal inference with contexts composed of both images and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks from natural to annotated data, without multi-source pre-training. Despite being trained solely on natural video data, UniVid generalizes well in both settings. Notably, understanding and generation tasks can easily switch by simply reversing the visual sentence order in this paradigm. These findings highlight the potential of pre-trained video generation models to serve as a scalable and unified foundation for vision modeling. Our code will be released at https://github.com/CUC-MIPG/UniVid.
PDF142September 29, 2025