ChatPaper.aiChatPaper

UniVid: Unificazione delle Attività di Visione con Modelli Pre-addestrati per la Generazione di Video

UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

September 26, 2025
Autori: Lan Chen, Yuchao Gu, Qi Mao
cs.AI

Abstract

I grandi modelli linguistici, addestrati su corpora estesi, uniscono con successo compiti linguistici diversi all'interno di un unico framework generativo. Ispirati da ciò, lavori recenti come il Large Vision Model (LVM) estendono questo paradigma alla visione organizzando i compiti in frasi visive sequenziali, dove i prompt visivi fungono da contesto per guidare gli output. Tuttavia, tale modellizzazione richiede un pre-addestramento specifico per compiti attraverso modalità e fonti diverse, il che è costoso e limita la scalabilità a compiti non visti. Dato che i modelli pre-addestrati per la generazione di video catturano intrinsecamente le dipendenze delle sequenze temporali, esploriamo un'alternativa più unificata e scalabile: può un modello pre-addestrato per la generazione di video adattarsi a compiti diversi di immagini e video? Per rispondere a ciò, proponiamo UniVid, un framework che effettua il fine-tuning di un trasformatore di diffusione video per gestire vari compiti visivi senza modifiche specifiche per il compito. I compiti sono rappresentati come frasi visive, dove la sequenza di contesto definisce sia il compito che la modalità di output attesa. Valutiamo la generalizzazione di UniVid da due prospettive: (1) inferenza cross-modale con contesti composti sia da immagini che video, estendendosi oltre l'impostazione uni-modale di LVM; (2) compiti cross-source da dati naturali a dati annotati, senza pre-addestramento multi-source. Nonostante sia stato addestrato esclusivamente su dati video naturali, UniVid generalizza bene in entrambe le impostazioni. In particolare, i compiti di comprensione e generazione possono facilmente alternarsi semplicemente invertendo l'ordine delle frasi visive in questo paradigma. Questi risultati evidenziano il potenziale dei modelli pre-addestrati per la generazione di video di servire come base scalabile e unificata per la modellizzazione visiva. Il nostro codice sarà rilasciato su https://github.com/CUC-MIPG/UniVid.
English
Large language models, trained on extensive corpora, successfully unify diverse linguistic tasks within a single generative framework. Inspired by this, recent works like Large Vision Model (LVM) extend this paradigm to vision by organizing tasks into sequential visual sentences, where visual prompts serve as the context to guide outputs. However, such modeling requires task-specific pre-training across modalities and sources, which is costly and limits scalability to unseen tasks. Given that pre-trained video generation models inherently capture temporal sequence dependencies, we explore a more unified and scalable alternative: can a pre-trained video generation model adapt to diverse image and video tasks? To answer this, we propose UniVid, a framework that fine-tunes a video diffusion transformer to handle various vision tasks without task-specific modifications. Tasks are represented as visual sentences, where the context sequence defines both the task and the expected output modality. We evaluate the generalization of UniVid from two perspectives: (1) cross-modal inference with contexts composed of both images and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks from natural to annotated data, without multi-source pre-training. Despite being trained solely on natural video data, UniVid generalizes well in both settings. Notably, understanding and generation tasks can easily switch by simply reversing the visual sentence order in this paradigm. These findings highlight the potential of pre-trained video generation models to serve as a scalable and unified foundation for vision modeling. Our code will be released at https://github.com/CUC-MIPG/UniVid.
PDF142September 29, 2025